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উৎসর্গ 


পঁচিশ বছরের ক্ষুদ্র এই জীবনে খুব বেশি কিছু করতে পারিনি তাদের তিনজনের জন্য। আর 
মনের আবেগ প্রকাশে কখনোই তেমন একটা পটু ছিলাম না। এই বইটি সেই গভীর, অপ্রকাশিত 
আবেগেরই ক্ষুদ্রতম বহিঃপ্রকাশ। 


বাবা, মা ও ছোটো ভাই জারিফকে 


কৃতজ্ঞতা স্বীকার 
এটি আমার লেখা প্রথম বই। এর আগে ব্লগে লেখালেখির চেষ্টা করেছি। কিন্তু সময় এবং ধৈর্য্যের 
অভাবে কখনোই আর বেশীদূর যাওয়া হয়ে ওঠেনি। মেশিন লার্নিং নিয়েও লিখেছি রগে। এর পরে 
হুট করেই একদিন মেশিন লার্নিং বিষয়ে আমার এই লেখাগুলোকে একটা পুর্ণাঙ্গ বই আকারে 
লিখে ফেলার একটা ঝোঁক মাথায় চেপে বসে। সেই থেকেই শুরু। যোগাযোগ হয় দ্বিমিক প্রকাশনীর 
স্বত্বাধিকারী তাহমিদ রাফি ভাইয়ের সঙ্গে। তার উৎসাহে পুরোদমে লেখা শুরু করি। 


একেবারে শুরু থেকে বই প্রকাশিত হওয়া পর্যন্ত পুরোটা সময়ে মাথার ওপরে ছায়া হয়ে ছিলেন 
রাফি ভাই। ওনার অক্লান্ত পরিশ্রমেই আমি আজ এই বইটি পাঠকের হাতে তুলে দিতে পারছি। এ 
জন্য আমি তার কাছে অশেষ কৃতজ্ঞ। 


এছাড়া, আমি বিশেষভাবে কৃতজ্ঞ আমার বিশ্ববিদ্যালয় জীবনের ঘনিষ্ট বন্ধু মারুফের কাছে। সে 
প্রায় এক মাস সময় নিয়ে এই বইয়ের আনাচকানাচ তন্ন তন্ন করে খুঁজে অসংখ্য ভুল-ত্রুটি বের 
করে এনেছে। বর্তমানে সে সিঙ্গাপুরে 13917/8175 1901110102108] 10715617510 (খ]0)-তে 
মেশিন লার্নিং নিয়ে গবেষণা করছে। এছাড়াও আমি বিশেষভাবে কৃতজ্ঞ আমার বিশ্ববিদ্যালয়ের 
শ্রদ্ধেয় বড় ভাই রায়হান সিরাজের কাছে। তিনি আমার বইটি বেশ সময় নিয়ে খুঁটিয়ে খুঁটিয়ে 
পড়েছেন এবং বেশ কিছু ভুল-ত্রুটি সংশোধন করে দিয়েছেন। বর্তমানে সিরাজ ভাই কানাডার 
11০01] 07156751-তে মেশিন লার্নিং নিয়ে গবেষণা করছেন। তাদের দুইজনের জন্য অসংখ্য 
শুভকামনা এবং ভালোবাসা। 


ভবিষ্যত সংফরণগুলোতে সেগুলো ক্রমশ সংশোধন করে নিতে। 


সবার জন্য শুভকামনা । 
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মেশিন লার্নিং আলগরিদম 


১০ 


মুখবন্ধ | 


মেশিন লার্নিং এখন একটি অত্যন্ত সুপরিচিত নাম। কম্পিউটার বিজ্ঞানের ছাত্র ও গবেষকদের তো 
বটেই, বিজ্ঞান ও প্রকৌশলের অন্যান্য শাখার ছাত্র/গবেষকদেরও তাঁদের স্ব স্ব বিষয়ভিত্তিক 
সমস্যাগুলোতে এখন মেশিন লার্নিং নিয়ে কাজ করতে আমরা সচরাচরই দেখতে পাই। সেই ষাটের 
দশকে যার সূচনা হয়েছিল কৃত্রিম বুদ্ধিমত্তার একটি উপশাখা হিসেবে, নব্বইয়ের দশকে এসে সেই 
উপশাখাই যেন মূল শাখাকে ছাড়িয়ে যায়। বাস্তবিকই অধুনা কৃত্রিম বুদ্ধিমত্তার কথা বললে শতকরা 
৮০ ভাগ (বা হয়তো তারও বেশি) আলোচনাই চলে মেশিন লার্নিং নিয়ে! পশ্চিমা দেশগুলোতে 
মেশিন লার্নিংয়ের চর্চা তত্তীয় এবং প্রায়োগিক দুই ক্ষেত্রেই সর্বব্যাপী। প্রাতিষ্ঠানিক ও অনানুষ্ঠানিক 
পড়াশোনার কথা বললে, উন্নত বিশ্বের দেশগুলোতে এখন এমনকি স্কুল-কলেজ পর্যায়ের 
ছাত্রছাত্রীরাও বিভিন্নভাবে মেশিন লার্নিং শিক্ষা এবং ব্যবহারের সঙ্গে কোনো-না-কোনোভাবে 
জড়িত হয়ে যাচ্ছে। যেমন, স্কুল-কলেজ পর্যায়ে আয়োজিত বিভিন্ন মেশিন লার্নিং হ্যাকাথন বা এরূপ 
নানা প্রতিযোগিতা ধীরে ধীরে ওই দেশগুলোতে খুবই জনপ্রিয় হয়ে উঠছে এবং তার দীর্ঘমেয়াদি 
ফলাফল হিসেবে বিশ্ববিদ্যালয় পর্যায়ের তত্তীয় ও ব্যবহারিক গবেষণায় তারা ঈর্ষণীয় সাফল্যও 
লাভ করছে। একসময় যা ছিল অচিন্তনীয়, আজ সেই সব সমস্যার সমাধান বেরিয়ে আসছে, মেশিন 
লার্নিং ব্যবহার করে। 


দুর্ভাগ্যজনকভাবে আমাদের দেশের ছাত্রছাত্রী ও গবেষকবৃন্দ এখনো এই বিষয়ে কিছুটা হলেও 
পিছিরে রয়েছেন বলে মনে হয়। সম্ভবত এই বিষয়ে ব্যুৎপত্তি অর্জনে একটি বড়ো বাধা হলো 
আমাদের মাতৃভাষায় মেশিন লার্নিংয়ের ভালো বইয়ের অভাব _- আসলে বাংলা ভাষায় লিখিত 
মেশিন লার্নিংয়ের কোনো বই রয়েছে বলে আমার জানা নেই। সেই দিক থেকে আমার প্রিয় শ্লাতক 
ছাত্র নাফিস নিহালের এ বইটি নিঃসন্দেহে একটি মাইলফলক হিসেবে বিবেচ্য। 


যে-কোনো বিষয়েই বই লেখা একটি দুরূহ কাজ। বিজ্ঞান সাময়িকী অর্থাৎ /757-75/127/50 
/০/772/-এ একটি নিবন্ধ লেখা আর সেই একই জিনিস বইয়ে অন্তর্ভুক্ত করার মধ্যে রয়েছে 
আকাশ-পাতাল তফাত। এর অন্যতম কারণ হলো এই যে, বিজ্ঞান সাময়িকীর প্রবন্ধটির পাঠক 
হলেন বিশেষজ্ঞ পাঠক - তিনি ওই বিষয়ের মৌলিক তন্তগুলি জেনেই ওই প্রবন্ধ পড়তে আসেন; 
আর বই লেখার সময় ধরে নিতে হয় যে, এমন পাঠকও বইটি পড়তে পারেন যিনি কিনা এই 
সম্পর্কে মোটেই কিছু জানেন না। সুতরাং তাঁকে বোঝানোর মতো করে বই লিখতে হয় আবার 
একইসঙ্গে এমনও যেন না হয়, যাতে বিশেষজ্ঞ পাঠক বইটি সম্পর্কে আগ্রহ হারিয়ে ফেলেন। তাই, 


৯১ 


মেশিন লার্নিং আযালগরিদম 


বিশেষত কারিগরি বিষয়ে বই লেখা অত্যন্ত দুরূহ একটি কাজ। নাফিস নিহাল সেই দুরূহ কাজটি 
সম্পন্ন করেছে, তাই তাকে অভিনন্দন। 


আমি মেশিন লার্নিং বিষয়ে বিশেষজ্ঞ নই। সময়ের অভাবে এখনো এই বইটি আমার পড়া হয়ে 
ওঠেনি। তবে আমার অবিলম্বে করণীয় কিছু কাজের তালিকার মধ্যে এখন যুক্ত হয়েছে এই বইটি 
পড়ে মেশিন লার্নিংটা শিখে ফেলা । আমি আশা করব, আমাদের অনেক ছাত্রছাত্রী, বিশেষত যারা 
হয়তো ভাষাগত প্রতিবন্ধকতার কারণে মেশিন লার্নিং শেখার আগ্রহ পূরণ করতে পারছিল না,তারা 
এই বইটি নিয়ে এক্ষুনি মেশিন লার্নিং শিখতে ঝাঁপিয়ে পড়বে। এই মুখবন্ধটি বাড়িয়ে তাই আর 
তাদের সময় নষ্ট করব না। 


লেখকসহ, এই বইটি প্রকাশনার সঙ্গে জড়িত সকলকে অসংখ্য ধন্যবাদ ও শুভকামনা। 
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আমি তখন অনেক ছোটো। সালটি বোধহয় ২০০১। আমার ঠিক মনে নেই এই মুহর্তে। এটুকু 
মনে আছে, আমি তখন সপরিবারে দাদাবাড়িতে ছিলাম। খুব সম্ভবত তখন রোজার ঈদ ছিল। 
আমার বয়স তখন আট কি নয় বছর হবে। তখন কম্পিউটার সবে পরিচিতি পাওয়া শুরু করেছে 
আমাদের দেশে। এখনকার মতো তখন এরকম ঘরে ঘরে কম্পিউটার ছিল না। আর মানুষজন এর 
নামও জানত না তেমন। আমাদের বাসায় একটি কম্পিউটার কেনা হয়েছিল 1999 সালে বোধহয়। 
সেই ঢাউস সিআরটি মনিটর, ধ্যাদ্দেড়ে সিপিইউ আর ছিল ইন্টারনেট কানেকশনের জন্য প্যাঁ পো 
শব্দ করে পাড়ার মানুষের ঘুম হারাম করে দেওয়া ডায়াল-আপ মডেম। যে সময়কার কথা বলছি 
তখনো স্থবির ল্যান্ডফোনের বিকল্প ছিল কর্ডলেস ফোন, মোবাইল তখনো ওভাবে বাজারে 
আসেনি। 


তো সেই সময়ে, আমাদের দাদাবাড়িতে একটি ভিসিআর মেশিন ছিল। অনেকেই হয়তো দেখেননি 
আপনারা ভিসিআর কী জিনিস, জানেনও না হয়তো। এই গুগোল ড্রাইভ, আর পোর্টেবলের যুগে 
সেসবের কথা না জানাই স্বাভাবিক। কিছুদিন আগেও সিডি, ডিভিডি এই জিনিসগুলো আমাদের 
কাছে নতুন লাগত। তার আগে ছিল ফ্লুপি ডিক্ক। সেই সময়ের যুগে ভিডিও ফাইলগুলো ধরে রাখা 
হতো ভিসিআরের ক্যাসেটে। তো, দাদুবাড়িতে বেশ কিছু ইংরেজি চলচ্চিত্রের ভিসিআর ক্যাসেট 
ছিল। আমার ছোটো চাচা ওগুলো এনে দিয়েছিলেন আমেরিকা থেকে। এর মধ্যে একটি ছিল 
75777776972 4//182/7727 227 যেটি আমার মনে হয় খুব কম মানুষই আছে দেখেনি বা 
নাম জানে না। আরনন্ড শোয়ার্জনেগারের সেই দুর্দান্ত অভিনয় ভোলার মতো নয়। 


সেই চলচ্চিত্রে আমি প্রথম দেখেছিলাম এমন কিছু রোবট, যারা দেখতে পুরোপুরি মানুষের মতো, 
বাইরের চেহারা থেকে শুরু করে হাঁটাচলা, কথাবার্তা, জামাকাপড় সবকিছু। এমনকি তাদের 
বুদ্ধিমন্তাও ছিল। ছোটোবেলায় তো আর এত কিছু বুঝতাম না, খালি ইংরেজি কথাবার্তার দৃশাগুলো 
টেনে টেনে দিয়ে মারামারি আর গোলাগুলির দৃশ্যগুলো দেখতাম। ওই যুগে এরকম ছবি আর 
কোনোটি ছিল না বোধহয়। আমি তন্ময় হয়ে দেখতাম আর ভাবতাম, এরা তো আসল মানুষ নয়, 
এরা তো লোহালকুড় দিয়ে বানানো রোবট। কিন্তু তাও এরা কীভাবে নড়াচড়া করছে, কথা বলছে 
মানুষের মতো, মারামারি করছে, গাড়ি চালাচ্ছে আরো কত কী! কীভাবে সম্ভব এগুলো? 


মেশিন লার্নিং আলগরিদম 


র শৈশবের আরেকটি বড়ো অংশ জুড়ে ছিল গল্পের বই পড়া। পড়তাম হাতের কাছে যা 
৮০৬৭ তিন গোয়েন্দা হোক, মাসুদ রানা হোক, কিশোর উপন্যাস কিংবা সায়ে্ 
ফিকশন _ সবই গোগ্রাসে গিলতাম। বাদ যেত না টিনটিন আর চাচা চৌধুরীর কমিকসও। 


ছোটোবেলার সেই ভাবনা কিংবা 'টার্মিনেটর' নামক ইংরেজি চলচ্চিত্র কিংবা সায়েন্স ফিকশন 
গল্পের বইগুলি, এসবের বদৌলতেই বোধহয় আজ আর্টিফিশিয়াল ইন্টেলিজেন্স নিয়ে আমার এত 
কৌতৃহল। আমি যে আর্টিফিশিয়াল ইন্টেলিজেন্সের আগামাথা সব জানি, তা মোটেই নয়। আমার 
জানার দৌড় খুবই নগণ্য এবং সেটি আমি অকপটেই স্বীকার করে নিচ্ছি। তবে, জানার দৌড় 
নগণ্য হলেও জানার কৌতৃহল আছে যোলোআনা। আর সেই সঙ্গে আছে নতুন যা শিখছি সেগুলো 
আরো দশজনের কাছে ছড়িয়ে দেওয়ার প্রবল ইচ্ছা। আর কোনো কিছু গোড়া থেকে থেকে শিখতে 
হলে এই দুই-ই কিন্তু চাই। নিজে শিখতে হবে এবং অন্যকেও শেখাতে হবে। 


এই বইতে হয়তো মেশিন লার্নি-এর সবকিছু নেই, কিন্তু যা আছে, সেটি ছাড়া আপনার মেশিন 
লার্নিং শেখা অপূর্ণ থেকে যাবে, সুতরাং এগুলো শিখতে হবেই। এই বইতে যা আছে সেটি আজ 
পর্যন্ত আমার কৌতৃহলের বদৌলতে যা-যা শিখতে পেরেছি তা-ই একেবারে সহজ বাংলার 
বোঝানোর একটি প্রয়াস। আর্টিফিশিয়াল ইন্টেলিজেন্স, মেশিন লার্নিং-সংক্রান্ত বইগুলোর একটি 
দিক হলো, এগুলো একে তো কঠিন সায়েন্টিফিক ইংরেজিতে লেখা, তার ওপরে ডিফারেন্সিয়াল 
ওপরে মস্ত কঠিন কঠিন অঙ্ক আর থিওরি দিয়ে ভর্তি। যার ফলে যেটি হয় যে, আমার মতো মাঝারি 
গোছের ছাত্র/ছাত্রী যারা, যাদের ইংরেজির ওপরে একটু দখল কম কিংবা অঙ্কে একটু দুর্বল, তাদের 
আসলে এই বিষয়গুলো শিখে নিজেদের বিভিন্ন প্রজেক্টে প্রয়োগ করার মতো যোগ্যতা থাকা সন্তেও 
তারা পিছিয়ে পড়ে। তাদের শুধু এমন কাউকে দরকার, যে তাদেরকে এই চমতকার বিষয়গুলো 
একটু সহজ করে ধরিয়ে দেবে, বাকিটুকু তারা নিজেরাই করে ফেলতে পারবে। 


আমার চেষ্টা শুধু সেটুকুই। বাংলা ভাষায় আর্টিফিশিয়াল ইন্টেলিজেন্স ও মেশিন লার্নিংয়ের মজার 
বিষয়গুলো তাদের একটু সহজ করে বুঝিয়ে দেওয়া, যাতে তারা পরবর্তী সময়ে নিজেরাই সেগুলো 
প্রয়োগ করতে পারে। আরেকটি কথা, কিছু শব্দ থাকবে যেগুলো আমি হয়তো ইংরেজিতে লিখব, 
সেটি এইজন্য যাতে পরবর্তী সময়ে ইংরেজি বই বা আর্টিকেল পড়ার সময় সবাই ইংরেজি 
প্রতিশ্দগুলোর সঙ্গে মিলিয়ে পড়তে পারে। কিন্ত, মূল বিষযসত ব্যাখ্যা করা হবে বাংলাতেই। এই 
বইতে অঙ্ক যে একেবারে নেই, ব্যাপারটি মোটেও এমন নয়। মেশিন লানিং শিখতে গেলে অবশ্যই 


গণিত লাগবে, এ ছাড়া হবে লা। তাই চেষ্টা করেছি যতটুকু সম্তব পারা যায় সহজ করে গণিত দিয়ে 
বোঝাতে। 


ভূমিকা 
আর্টিফিশিয়াল ইন্টেলিজেন্স ও মেশিন লার্নিংয়ের এই বিষয়গুলো যদি আমার পাঠক যাঁরা আছেন, 
বলে মনে করব। 
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নাফিস নিহালের জন্ম ৯ নভেম্বর, ১৯৯৩ সালে ঢাকায়। গ্রামের বাড়ি শান্তিবাগ, চাঁপাইনবাবগঞ্জে 
বাবা ও মা দুজনেই সরকারি কর্মকর্তা। লেখাপড়া করেছেন উদয়ন উচ্চ মাধ্যমিক বিদ্যালয়, নটর 
ডেম কলেজ ও ইসলামিক ইউনিভার্সিটি অব টেকনোলজিতে আইইউটি, গাজীপুর)। তিনি 
আইইউটি থেকে কম্পিউটার সায়েন্স ত্যান্ড ইঞ্জিনিয়ারিং বিভাগ থেকে গ্র্যাজুয়েশন করেছেন 
২০১৬ সালে। 

বিশ্ববিদ্যালয়-জীবন থেকেই তাঁর ছিল নতুন বিষয় জানার প্রতি ঝৌঁক। বিশ্ববিদ্যালয়ের কয়েকজন 
বন্ধুকে নিয়ে নিজেদের একটি ছোটো সফটওয়্যার ফার্ম শুরু করেছিলেন বিশ্ববিদ্যালয়-জীবনেই। 
ওয়েবসাইট ও ওয়েবভিত্তিক ত্যাপ্লিকেশন তৈরিতে বেশ দক্ষতা এবং অভিজ্ঞতা রয়েছে তাঁর। 


মেশিন লার্নিং আযালগরিদম 

বিশ্ববিদ্যালয়ে থাকাকালীনই বেশ কিছু ত্যাপ্রিকেশন ডিজাইন এবং টেক বিজনেস প্রতিযোগিতায় 
অংশগ্রহণ করে ছিনিয়ে এনেছেন জাতীয় ও আন্তর্জাতিক পর্যায়ের সাফল্য। 

মেশিন লার্নিং নিয়ে তাঁর গবেষণার শুরু বিশ্ববিদ্যালয়-জীবনের শেষের দিক থেকে। এ পর্যন্ত প্রায় 
২০টিরও বেশি গবেষণা প্রকল্পের সঙ্গে যুক্ত আছেন তিনি। প্রকাশ করেছেন বেশ কয়েকটি 
গবেষণাপত্র। এ ছাড়াও আর্টিফিশিয়াল ইন্টেলিজেন্স নিয়ে বাংলাদেশি ছাত্র-ছাত্রীদের সঙ্গে 
গবেষণা করার উদ্দেশ্যে প্রতিষ্ঠা করেছেন 'গ্রেডিয়েন্ট এআই ল্যাবস বাংলাদেশ (0750167 
1,909 79112190691)" নামে একটি একাডেমিক গবেষণা প্রতিষ্ঠান। 


বর্তমানে তিনি ড্যাফোডিল ইন্টারন্যাশনাল ইউনিভার্সিটির কম্পিউটার সায়েন্স আ্যান্ড ইঞ্জিনিয়ারিং 
বিভাগে প্রভাষক হিসেবে কর্মরত আছেন। স্বপ্ন দেখেন বাংলাদেশি ছাত্র-ছাত্রীদের সঙ্গে কাজ করে 
গবেষণার ক্ষেত্রে বাংলাদেশের জন্য আন্তর্জাতিক সাফল্য বয়ে আনার। 
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11090010000 15 10107 11019010910 00191) 1010$1089 _ বলেছিলেন বিজ্ঞানী আলবার্ট 
আইনস্টাইন। 


চলুন, একটি কল্পনা দিয়ে শুরু করি। ধরা যাক, কোনো এক বিশ্ববিদ্যালয়ের কয়েকজন মেধাবী 
শিক্ষার্থী একটি রোবট তৈরি করেছে। রোবটটির বিশেষত্ব হচ্ছে সে ভালো ফুটবল খেলতে পারে। 
রোবটটির নাম দেওয়া হয়েছে রোবু। রোবুর পায়ে যদি ফুটবল দেওয়া হয়, সে সুন্দর করে বলটি 
মাঠের এক প্রান্ত থেকে অন্য প্রান্তে টেনে নিয়ে গোল দিয়ে দিতে পারে। শুধু তা-ই নয়, রোবু 
অন্যান্য খেলোয়াড়ের সঙ্গে দু-তিনবার খেললেই তাদের খেলার ধরন কেমন সেটি মনে রাখতে 
পারে। এখন ধরি, ফিফা (717/) রোবু ও রোনালদো 0২০7410০)-এর মধ্যে একটি প্রীতি ফুটবল 
ম্যাচ সিরিজের আয়োজন করেছে। খেলার নিয়ম সব সময়কার মতোই। নির্দিষ্ট সময়সীমা বেঁধে 
দেওয়া থাকবে। সেই সময়সীমার মধ্যে যে সবচেয়ে বেশি পরিমাণ গোল দেবে, সে-ই ম্যাচ 
জিতবে। এরকম করে সর্বমোট 5টি ম্যাচ খেলা হবে। 5 ম্যাচ শেষ হওয়ার পর যে সবচেয়ে বেশি 
ম্যাচ জিতবে, সে সিরিজ-বিজয়ী বলে ঘোষিত হবে। 


রোবু ও রোনালদোর মধ্যেকার সেই এতিহাসিক 5 ম্যাচ সিরিজের ফলাফল টেবিল 1.1-এ দেওয়া 
হলো: 


ম্যাচ নম্বর রোবুর গোলসংখ্যা ; রোনালদোর গোলসংখ্যা 


| ৩য় ম্যাচ 
৪র্থ ম্যাচ 
৫ম ম্যাচ 


4 
1 
2 
2 
॥ 
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টেবিল 1.1 


আমরা যদি টেবিল 1.1 একটু ভালোভাবে লক্ষ করি, তাহলে দেখব যে, প্রথম মাচে রোবু বিশাল 
ব্যবধানে হেরেছে, পরের দুটো ম্যাচ ড্র হয়েছে এবং শেষের দুই মাচ রোবু জিতেছে। এই 
ফলাফলের ভিত্তিতে আমরা খুব সহজেই দাবি করতে পারি যে রোনালদোর বিপরীতে খেলতে 
খেলতে রোনু ক্রমান্বয়ে ভালোভাবে পারফরম করেছে। অর্থাৎ প্রতি ম্যাচে তার খেলা আগের 
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ম্যাচের চেয়ে উন্নত মানের হয়েছে শুধু আগের ম্যাচগুলোর অভিজ্ঞতার ওপর ভিত্তি করে। প্রতিটি 
এবং পরবর্তী সময়ে সেগুলো ঠিকমতো কাজে লাগিয়ে সে বিজয় ছিনিয়ে এনেছে। 


রোবু ও রোনালদোর মধ্যেকার 5 ম্যাচ সিরিজের স্কোর ছবি 1.1-এ গ্রাফ আকারে দেখানো হলো। 
এই গ্রাফে বর্ণাকৃতির মার্কারগুলো দিয়ে যে রেখা আঁকা হয়েছে, সেটি বোঝাচ্ছে রোনালদোর স্কোর; 
আর রম্বস বা ডায়মন্ড আকৃতির মার্কারগুলো দিয়ে যে রেখা আঁকা হয়েছে, সেটি বোঝাচ্ছে রোবুর 
ক্কোর। এখানে হরাইজন্টাল (07071207101) বা ১-অক্ষ বরাবর নেওয়া হয়েছে মাচসংখ্যা এবং 
ভার্টিকাল (70০91) বা *-অক্ষ বরাবর নেওয়া হয়েছে বিভিন্ন ম্যাচে রোবু আর রোনালদোর 
দেওয়া গোলের সংখ্যা। গ্রাকটিতে দেখা যাচ্ছে যে প্রথম থেকে পঞ্চম ম্যাচ পর্যন্ত প্রতি ম্যাচে 
রোবুর পারফরম্যান্স আগের ম্যাচের চেয়ে ক্রমান্বয়ে ভালো হয়েছে এবং এটি হয়েছে তার আগের 
ম্যাচগ্ুলো থেকে শেখা অভিজ্ঞতার ওপর ভিত্তি কারে। 


ছবি 1. : রোবু ও রোনালদোর ম্যাচের স্কোর গ্রাফ 


এখন এই ঘটনার ওপর ভিত্তি করে কি আমরা বলতে পারি যে রোবুর বুদ্ধি আছে? উত্তর হচ্ছেহ্যাঁ। 
আমরা ধরে নিতে পারি যে রোবুর ভেতরে বুদ্ধিমত্তা আছে। যদিও এই বুদ্ধিমত্তা আর মানুষের 
বুদ্ধিমত্তার মধ্যে আকাশ-পাতাল ফারাক। রোবুর বুদ্ধিমত্তা খুবই নিচু মানের হলেও অন্তত কিছুটা 
বুদ্ধিমত্তা তার ভেতরে আছে। 
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আমরা রোবুকে কেন বুদ্ধিমান বলতে পারছি? রোবুকে যদি আমরা একজন জলজ্যান্ত মানুষের সঙ্গে 
তুলনা করি, তাহলে দেখব যে একজন বুদ্ধিমান মানুষের মতোই রোবু আচরণ করছে। কিংবা 
আরেকটু ভালোভাবে বলা যেতে পারে, রোবু একজন মানুষকে অনুকরণ করার চেষ্টা করছে। 
একজন সাধারণ মানুষ হলে কী করত? প্রতিবার একই প্রতিপক্ষের সঙ্গে ফুটবল খেলতে খেলতে 
কিছুটা হলেও তার পারফরম্যান্স আগের চেয়ে ভালো হতো। এর কারণ কী? কারণ বেশ কয়েকবার 
খেলার পরে সে অবশ্যই তার প্রতিপক্ষ সম্পর্কে কিছুটা হলেও জেনে ফেলবে। ফলে তার 
তা-ই হয়েছে। আর তাই আমরা রোবুকে কিছুটা হলেও বুদ্ধিমান বলতে পারি। 


তাহলে, কোনো প্রাণীকে যদি কোনো কাজ বেশ কয়েকবার করতে দেওয়া হয় এবং প্রতিবার তার 
কাজের ফলাফল আগের চেয়ে ভালো হয়ে উঠতে থাকে তার পূর্বের অভিজ্ঞতার কারণে তাহলে 
আমরা বলতে পারি, সেই প্রাণীর মধ্যে বুদ্ধিমত্তা রয়েছে। আর বুদ্ধিমত্তা যদি কৃত্রিমভাবে তৈরি করে 
দেওয়া যায় কোনো বস্তুর কেম্পিউটার, রোবট ইত্যাদি) ভেতরে, তাহলে আমরা তাদের বুদ্ধিমত্তাকে 
বলতে পারব কৃত্রিম বুদ্ধিমত্তা বা আর্টিফিশিয়াল ইন্টেলিজেন্স। 


আর্টিফিশিয়াল ইন্টেলিজেন্স হচ্ছে কোনো মেশিনের ভেতরে কৃত্রিম উপায়ে বুদ্ধিমত্তা সধ্গার/তৈরি 
করা, তাকে এমনভাবে প্রোগ্রাম করা, যাতে সে নিজে নিজে মানুষের মতোই কোনো কিছুকে 
বিশ্লেষণ করে কোনো কাজ করতে পারে। মানুষ যেভাবে চিন্তাভাবনা করে, কোনো মেশিন যত 
ভালোভাবে সেটি অনুকরণ করতে পারবে, আমরা সেই মেশিনকে তত বেশি আর্টিফিশিয়ালি 
ইন্টেলিজেন্ট বলব। 


যাঁরা কম্পিউটার নিয়ে পড়াশোনা করেছেন তাঁরা অনেকেই হয়তো আর্টিফিশিয়াল ইন্টেলিজেন্সের 
সঙ্গে সঙ্গে আরো একটি টার্ম প্রায়শই শুনে থাকবেন, সেটি হলো মেশিন লার্নিং। মেশিন লার্নিং_ 
এই টার্মটি খুবই জনপ্রিয়। অনেকেই হয়তো এর অর্থ কী সেটি জানেন, অনেকে জানেন না; কিন্তু 
নাম শুনেছেন। আমি অনেককে দেখেছি, যাঁরা মনে করেন, এটি বোধহয় যন্ত্রপাতি কীভাবে কাজ 
করে এটি জানার জন্য কোনো কোর্স। আবার অনেকে মনে করেন, এটি বোধহয় আযাসেম্বলি 


মেশিন লার্নিং হচ্ছে আর্টিফিশিয়াল ইন্টেলিজেন্সের একটি শাখা। খুব সহজ করে যদি বলতে যাই 
কিংবা খুঁজতে যাই, তাহলে কিন্তু আমরা নামের মধ্যেই অর্থ পেয়ে যেতে পারি। মেশিন লার্নিং হচ্ছে 
কোনো মেশিনকে লার্ন করানো, শেখানো। এখন প্রশ্ন হচ্ছে কী শেখাব? আর মেশিন বলতেই-বা 
কী বোঝানো হচ্ছে? উত্তর হলো, এখানে মেশিন হচ্ছে মূলত কম্পিউটার কিংবা রোবট আর 
মেশিনকে আমরা শেখাব কীভাবে আসলে নিজে নিজে চিন্তা করতে হয়। 
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সাধারণত আমরা যখন কম্পিউটার নিয়ে কোনো কাজ করি, সেটি সিনেমা দেখা হোক, গান শোনা 
আমরা যখন কোনো মুভি ফাইলের ওপরে ডাবল ক্লিক করি, তার মানে আমরা আসলে চাই 
কম্পিউটার যেন ওই মুভিটি আমাদের জন্য চালিয়ে দেয়। কম্পিউটার কিন্তু কখনোই নিজে থেকে 
বুঝে নেবে না যে আপনি এখন মুভি দেখার মুভে আছেন, তাই সে কখনোই অটোম্যাটিক মুভি 
চালিয়ে দেবে না অন্তত এখন পর্যন্ত না, ভবিষ্যতে হলেও হতে পারে)। আপনাকে নিজে বসে 
মুভি ফাইলে ক্লিক করে কম্পিউটারকে বলে দিতে হবে যে মুভিটি চালিয়ে দাও। আমাদের 
কম্পিউটারে করা অন্যান্য কাজও কিন্তু একইভাবে ঘটে, যদি আমরা একটু চিন্তা করে দেখি। 


এখন, ব্যাপারটি কী রকম হবে যদি আপনি শুধু কম্পিউটারের সামনে বসে কম্পিউটারটি চালু 
করেন এবং সেই কম্পিউটার নিজে নিজে কতগুলো কাজ করে ফেলে _ 


* সে ওয়েবক্যাম দিয়ে আপনার চেহারার বেশ কিছু ছবি নেয়। 

০ সেই ছবি বিশ্লেষণ করে সে নিজেই নিজে বুঝে নেবে আপনার মন-মেজাজ এখন কী 
রকম। 

আপনার মন-মেজাজের ওপরে ভিত্তি করে সে নিজে নিজেই কোনো মুভি/গান চালিয়ে 
দেবে। আপনার মেজাজ খারাপ থাকলে কোনো হাসির মুভি চালাবে, যদি মেজাজ ভালো 


থাকে তাহলে হয়তো আপনাকে সায়েন্স ফিকশন বা কোনো গ্রিলার/্যাকশন মুভি চালিয়ে 
দিতে পারে। 


একটু চিন্তা করে দেখুন তো, কেমন হবে এই ব্যাপারটা? যদি ধরতে পেরে থাকেন, আসলে কী 


অধ্যায় ১: কৃত্রিম বুদ্ধিমত্তা এবং মেশিনের যত কথা 


আরেকটি বিষয়, মেশিন লার্নিং ও আর্টিফিশিয়াল ইন্টেলিজেন্স - এই টার্ম দুটি প্রায় অনেক সময়েই 
একইসঙ্গে একে অন্যের পরিপূরক হিসেবে ব্যবহার করা হয়ে থাকে, যেটি আসলে পুরোপুরি সঠিক 
নয়। আর্টিফিশিয়াল ইন্টেলিজেন্স ও মেশিন লার্নিংয়ের মধ্যে বেশ অনেকটুকু পার্থক্য রয়েছে। 
মেশিন লার্নিংকে বলা যেতে পারে আর্টিফিশিয়াল ইন্টেলিজেন্স অর্জন করার একটি উপায়। 
আমাদের লক্ষ্য হচ্ছে মেশিনকে কোনো একটি কাজে ভালোভাবে পারফরম করতে শেখানো। সেটি 
কিন্তু আমরা একেবারে হাজার হাজার লাইনের হার্ডকোড করেও করতে পারতাম। সেটি না করে 
আমরা যেটি করি, অসংখ্য ডেটা দিয়ে দিই মেশিনকে এবং শিখিয়ে দিই যে কীভাবে তাকে ডেটার 
ভেতর থেকে নিজে নিজে শিখে নিতে হবে। এই পদ্ধতিটিই হচ্ছে মেশিন লার্নিং, যেটি শুধু আমাদের 
মেশিনগুলোকে আর্টিফিশিয়ালি ইন্টেলিজেন্ট করে তোলার একটি পদ্ধতি মাত্র। 


আমি এই বইতে চেষ্টা করব মোটামুটি সবগুলো গুরুত্বপূর্ণ মেশিন লার্নিং আযালগরিদম দেখাতে। 
আমরা খুব বেশি কঠিন গাণিতিক হিসাবকিতাবে যাব না। যতটুকু দরকার, ঠিক ততটুকুই সহজ 
করে শিখব। আমাদের লক্ষ্য হবে প্রতিটি আযালগরিদমের বেসিক কনসেপ্টটুকু বুঝে নিয়ে এরপর 
এটি রিয়েল লাইফে/প্রোজেক্টে কোথায় এবং কীভাবে ত্যাপ্াই করতে হয়, সেটি শেখার। 


এই বইতে যে আ্যালগরিদমগ্ডলো দেওয়া আছে সেগুলো কোড করার জন্য মূলত ব্যবহার করা 
ভালো পাইথন। তাই যাঁদের পাইথনে দুর্বলতা আছে, কিংবা একেবারেই জানা নেই, তাঁরা মোটামুটি 
পাইথনের বেসিক 5/7/৪5-গুলো একটু দেখে নিতে পারেন ইন্টারনেটের বিভিন্ন রিসোর্স থেকে। 
কোডগুলো আমি নিজে এই বইতে করে দেব না, করতে হবে আপনাদের নিজেদেরই। যদি নিজে 
লার্নিহয়ে। 


কেউ যদি আমার বইয়ে দেওয়া মেশিন লার্নিংয়ের আলগরিদমগ্ডলোর কোড করে দেখতে চান, 
তাহলে পাইথন ডাউনলোড করে নিতে পারেন এই লিংক থেকে _ 


170005://1/5/.0)0017.012/00/0109805/ 


সেই সঙ্গে আমরা পাইথনে মেশিন লার্নিংয়ের জন্য 9011-,6817। নামে একটি লাইব্রেরি ব্যবহার 
করি। কেউ চাইলে সেটি দেখার জন্য ঢু মেরে আসতে পারেন এই লিংকে _ 
100)://501110-1091).0112/501)10/ 
তবে আমি মনে করি পাইথন ও মেশিন লার্নিংয়ের জন্য প্রয়োজনীয় সব লাইব্রেরি একবারে ইনস্টল 
করার সবচেয়ে সহজ উপায় হলো 91)900109 ইনস্টল করে নেওয়া। এটি একবার নামিয়ে 
ইনস্টল করে নিলে আর আলাদা করে আপনার কিছুই ইনস্টল করা লাগবে না। এটি পাইথনের 
একটি ওপেন সোর্স ডিস্ট্রিবিউশন, যাতে পাইথন কম্পাইলারসহ পাইথনের আরো জনপ্রিয় 
লাইব্রেরিগুলো, যেমন _ 18)701১/, 1১71)175, 90111171,09107, 11700100010, 5০১৮ ইত্যাদি সব 
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আগে থেকেই ইনস্টল করা আছে। সেই সঙ্গে, এতে আছে 7009/067 1০69001 যেটি পাইথন ৃ 
কোড গুছিয়ে লেখা এবং ভিজ্যুয়ালাইজেশনের জন্য খুবই জনপ্রিয় একটি আ্যাপ্রিকেশন। আপনারা 
218001108 নামিয়ে নিতে পারেন এই লিংক থেকে _ 


1100)5:///4-818000008.০077/09%/11050/ 


মেশিন লার্নিংয়ের দুনিয়ায় সবাইকে স্বাগত! 
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অধ্যায় ২: বিভিন্ন ধরনের লার্নিং ও অন্যান্য | 


মেশিন লার্নিং _ এই টার্মটি সবার আগে ব্যবহার করেন আর্থার স্যামুয়েল (80707 5217061, 
1901-1990) নামের একজন আমেরিকান বিজ্ঞানী। তাঁকে আর্টিফিশিয়াল ইন্টেলিজেন্স ও 
কম্পিউটার গেমিংয়ের একজন পথিকৃৎ বলা চলে। 


ছবি 2.1 : আর্থার স্যামুয়েল (87070 5817061, 1901-1990) 


তাঁর তৈরি করা স্যামুয়েল চেকার্স প্লেয়িং প্রোগ্রামটিই বিশ্বের প্রথম প্রোগ্রাম, যা নিজে নিজে খেলা 
শিখতে পেরেছিল। স্যামুয়েল পড়াশোনা করেছিলেন ম্যাসাচুসেটস ইনস্টিটিউট অব টেকনোলজি 
(0455590785605 17500006 011601)0701085 _ 1411) থেকে। পরবর্তীকালে তিনি বিশ্বখ্যাত 
বেল ল্যাবরেটরিতে কাজ করেছেন। এর মধ্যে বেশ কিছুদিন তিনি আইবিএম (81)-এ কাজ 
করেছেন। শেষ বয়সে এসে তিনি স্ট্যানফোর্ড বিশ্ববিদ্যালয় (50517000 [0718751)-এ 
প্রফেসর হিসেবে যোগদান করেন। তিনি আইইইই 01327) কম্পিউটার সোসাইটি থেকে 
কম্পিউটার পাইওনিয়ার আযাওয়ার্ড (001010191 1010667 //৮/৭0)-সহ আরো অসংখ্য 
উল্লেখযোগ্য পুরস্কারে ভূষিত হয়েছেন। তাঁর মৃত্যু হয় পারকিনসন্স রোগের কারণে। 
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পরিচ্ছেদ ২.১: সুপারভাইজড ও আনসুপারভাইজড লার্নিং (9019৩177556 2 


[05010275150 [,621771075) 


মেশিন লার্নিং আালগরিদমগ্ডলোকে সাধারণত দুটি ভাগে ভাগ করা যায় : 


০. 5001001791560 1,6910115 
০. [01050171590 1,99170115 


আরেকটি আছে 13610107০67767/ [,691178, সেটি আপাতত আমাদের এই বইয়ের 
এখতিয়ারের বাইরে থাকবে। ওটা নিয়ে পরবতী সময়ে অন্য কোনো সময় লেখা হবে। 


আমরা এখন একটু সুপারভাইজড লার্নিং নিয়ে কথা বলি। সুপারভাইজ মানে হচ্ছে কাউকে কোনো 
কিছু করতে শিখিয়ে দেওয়া, দেখিয়ে দেওয়া - যাতে সে পরবর্তী সময়ে নিজে নিজে কাজটি 
করতে পারে। মেশিন লার্নিংয়ের ক্ষেত্রেও, সুপারভাইজড লার্নিং আযালগরিদম হচ্ছে সেই সব 
আযালগরিদম, যেগুলো ব্যবহার করে আমরা কম্পিউটারকে মানুষের মত চিন্তা করা শেখানোর জন্য 
ট্রেনিং দেই। আর ট্রেনিং দেওয়ার জন্য আমাদের যেটি করতে হবে সেটি হচ্ছে কম্পিউটারকে 
পর্যাপ্তসংখ্যক উদাহরণ দিতে হবে। 


একটি খুব সহজ উদাহরণ দিই। ধরা যাক, আপনি জীবনে কখনো জিরাফ দেখেননি । আমি যদি 
আপনাকে জিরাফ চেনাতে চাই, তাহলে কী করব? কী করাটা সবচেয়ে সহজ হবে? আমি, কিংবা 
আরো দশজন সাধারণ মানুষ যেটি করবে সেটি হলো আপনাকে চিড়িয়াখানায় নিয়ে গিয়ে জিরাফ 
দেখাবে, তাই না? জিরাফ দেখিয়ে বলবে, 'দেখুন ভাই, এটি হলো জিরাফ। এর বিশাল লম্বা গলা 
থাকে। গায়ে হলুদ-বাদামি ফুটকি। এদের পাগুলোও বেশ লম্বা। পেছনে লেজ আছে। মাথার ওপরে 
কান ছাড়াও দুটি ছোটো শিঙের মতো জিনিস আছে।' তখন আপনি কী করবেন? আপনি ভালো 


করে জিরাফটি দেখবেন, ওর চেহারা আর ওর যে বৈশিষ্ট্যগুলো আছে, সেইগুলো মনে রাখার চেষ্টা 
করবেন। 


এরপর আপনাকে কেউ যদি একটি প্রাণীর ছবি দেখিয়ে শনাক্ত করতে বলে যে, সেটি জিরাফ কি 
না, তখন কিন্তু আপনি অবশ্যই সেটি করতে পারবেন। কীভাবে? আপনি মনে মনে মিলিয়ে 
দেখবেন যে, এই নতুন প্রাণীর শরীরে জিরাফের বৈশিষ্ট্যগুলো আছে কি না। যদি থেকে থাকে, 
তখন আপনি বলবেন এটি জিরাফ, আর যদি না থাকে, তাহলে বলবেন এটি জিরাফ নয়। 


আদ হরণ দই। মনে করন, আপনি পিংজা খেতে পছন্দ করেন। পিৎজা হাটের নিৎভা 
র পছন্দের খাদ্য। এখন, 
পিংজা হাটের কি সার খাদ্য এখন, যেহেতু আপনি নিয়মিতই সেখানে পিৎজা খেতে যান,াই 


গল জার দাম আপনি আগে থেকেই জানেন (টেবিল 2.1-এ দেখানো 


২৬ 


অধ্যায় ২: বিভিন্ন ধরনের লার্নিং ও অন্যান্য 


পিৎজার সাইজ | পিৎজার দাম 
হঞ্চিতে) টাকায়) 
6” 399/-] 
9" 699/- 
12" 945/- 
15"] 1215/- 
টেবিল 2.1 


এখন আপনার কোনো বন্ধু যদি আপনাকে জিজ্ঞাসা করে _ “দোস্ত, নতুন একটি পিৎজা এসেছে 
শুনলাম, 14 ইঞ্চি পিৎজা । পুরো চিকেন আর চিজে মাখামাখি । পিৎটিজার দাম কত হতে পারে 
আন্দাজ কর তো?' তাহলে আপনি কিন্তু খুব সহজেই আন্দাজ করে বলতে পারবেন যে 1150/- 
টাকার মতো হবে দাম। এটি কীভাবে বলবেন? 


আপনি নিজের মনের অজান্তেই চিন্তা করবেন যে 15 ইঞ্চি পিংজার দাম আপনি জানেন 1215/- 
টাকা, আর 12 ইঞ্চি পিৎজার দামও আপনি জানেন 945/- টাকা। তার মানে 14 ইঞ্চি পিতজার 
দাম এ দুটির মাঝামাঝি কিছু একটা হবে। যেহেতু 14 ইঞ্চি পিৎজা আর 15 ইঞ্চি পিৎজার সাইজ 
বেশ কাছাকাছি, সুতরাং এদের দামও কাছাকাছিই হবে। তাই 1150/- টাকার কাছাকাছি কিছু 
একটা হবে দাম। মজার ব্যাপার হচ্ছে, এই চিন্তাটি আপনি করবেন আপনার মনের অজান্তেই এবং 
এত দ্রুত করবেন বে আপনি টেরই পাবেন না কীভাবে আপনি দাম আন্দাজ করলেন। একইভাবে 
আপনাকে যদি 16 ইঞ্চি পিৎজার দাম আন্দাজ করতে বলা হয় আপনি সেটিও করতে পারবেন 
(এই উদাহরণটি নিয়ে আমরা সামনে আরো বিজারিত আলোচনা করব)। 


ওপরের যে দুটি উদাহরণ দেখানো হলো, দুটিই সুপারভাইজড লার্নিংয়ের উদাহরণ। প্রথম 
উদাহরণে প্রথমে জিরাফ দেখিয়ে আর জিরাফের বৈশিষ্ট্য বলে আপনার মস্তিষ্ষকে ট্রেনিং দেওয়া 
হলো জিরাফ চেনার জন্য। এরপর আপনাকে যত প্রাণীর ছবিই দেওয়া হোক না কেন, আপনি 
আলাদা করতে পারবেন যে কোনটি জিরাফ আর কোনটি জিরাফ নয়। এ ধরনের সমস্যাগুলোকে 
আমরা বলি ক্লাসিফিকেশন প্রবলেম (01955111090100 1-01)101))। 


আবার দ্বিতীয় উদাহরণে আপনাকে প্রথমে বিভিন্ন পিৎজার সাইজ ও তাদের দাম বলে দেওয়া 
হলো, আর তারপরে সেই তথ্যের ওপরে ভিত্তি করে আপনাকে আন্দাজ করতে বলা হলো অনা 
আরেক সাইজের পিৎ্জার দাম মেটি আপনার অজানা। এ ধরনের সমস্যাগুলোকে আমরা বলি 
রিগ্রেশন প্রবলেম 032)05510)) 1১101)10)))। 
আমরা রিগ্রেশন ও ক্লাসিফিকেশন, দুহ ধরনের প্রবলেম নিয়েই সামনে বিস্ত/ারিত আলোচনা করব 
এবং এইসব সমস্যা সমাধান করার জন্য বিভিন্ন আলগরিদম দেখব। 

২৭ 


মেশিনল ং আযালগরিদম 


এবার আসি আনসুপারভাইজড লার্নিংয়ে। সুপারভাইজড লার্নিংয়ে আমরা যেরকম ডেটার 
পাশাপাশি সঠিক উত্তরটিও দিয়ে দিতাম, আনসুপারভাইজড লার্নিংয়ে সেরকম ধরনের কোনো 
ট্রেনিং দিয়ে নেওয়া হবে না কম্পিউটারকে। তাকে ট্রেনিং-এর জন্য শুধু ডেটা দিয়ে দেওয়া হবে, 
সঠিক উত্তর নয়। সে নিজের মতো করে চেষ্টা করবে ওই ডেটার মধ্যে প্যাটার্ন বা বিভিন্ন ডেটার 
মধ্যে সামঞ্জস্য খুঁজে বের করতে। সেই সামঞ্জস্যের ওপরে ভিত্তি করে সে সবগুলো ডেটা বিভিন্ন 
গ্রুপে সাজাবে। এই ধরনের সমস্যাগুলোকে আমরা বলি ক্রাস্টারিং প্রবলেম (04591 
711977), যা কিনা আনসুপারভাইজড লার্নিংয়ের সবচেয়ে জনপ্রিয় উদাহরণ । কিন্তু এর বাইরেও 
আরো বেশ কিছু ধরনের সমস্যা আছে আনসুপারভাইজড লার্নিংয়ের ক্ষেত্রে । আমাদের এই বইতে 
আমরা অবশ্য ক্লাস্টারিং প্রবালম নিয়েই বিষদ আলোচনা করব। 


পরিচ্ছেদ ২.২: ফিচার (78৪879) 


এখন আমাদের আরো বি. মেশিন লার্নিংয়ের ধারণার ব্যাপারে একটু জেনে নিতে হবে। এগুলো 
একেবারে গোড়ার দিকে. কিছু ধারণা এবং এগুলো মেশিন লার্নিং শুরু করার জন্য জানা খুবই 
দরকার। এই ধারণাগুলে ধদি পরিক্ষার না থাকে, তাহলে পরবর্তী সময়ে বাকি বিষয়গুলো বুঝতে 
অসুবিধা হবে। 


টেবিল 2.2 ভালো করে লক্ষ করি। এই টেবিলে কয়েকটি ভিন্ন ভিন্ন প্রাণীর ছবি থেকে ওই প্রাণী 
সম্পর্কে কিছু ভিন্ন ভিন্ন ডেটা দেওয়া আছে। এই টেবিল ব্যবহার করে আমরা আমাদের পরবর্তী 
কনসেপ্টগুলো শিখব। ডেটাটি কাল্পনিক, বুঝতেই পারছেন। শুধু আপনাদের বোঝানোর উদ্দেশ্যে 
ব্যবহার করা হচ্ছে। এর সঙ্গে কেউ বাস্তবের সামঞ্জস্য খুঁজতে যাবেন না যেন। 


ছবি নম্বর | লেজের দৈর্ঘ্য ; গলার দৈর্ঘ্য | শিঙের মতো । প্রাণীটি কি জিরাফ? 
(সে.মি) (সেমি) | বস্তকি আছে? 
1 5 ৪ হ্যাঁ 1 
2 2 ও না না _| 
3 1 2|না না 
4 0 2]না না রে 
] 5.5 75 1হ্যা হাঁ 


টেবিল 2.2 


২৮ 


অধ্যায় ২: বিভিন্ন ধরনের লার্নিং ও অন্যান্য 
একটি বিষয় চিন্তা করে দেখুন, আমরা যখন কাউকে নতুন কোনো কিছু চেনাই, তখন তাকে সেই 
বস্তুটির সবচেয়ে অনন্য বা ইউনিক (1100) বৈশিষ্ট্যগুলোর কথা বলি, যা দিয়ে সে সহজেই 
তাকে আলাদা করতে পারবে আর দশটি অন্য কিংবা একই রকম জিনিস থেকে। 


যেমন ধরা যাক, আপনার ক্লাসে দুজন আছে আরিফ নামে। একজন চশমা পরে, আরেকজন পরে 
না। এখন, একদিন ক্লাসে গিয়ে আপনি আরিফকে খুঁজছেন কোনো একটি দরকারে। তাকে ক্লাসে 
না পেয়ে আপনি আপনার কোনো এক বন্ধুকে জিগ্যেস করলেন, 'দোস্ত, আরিফ কোথায় রে?' তখন 
সে স্বাভাবিকভাবেই আপনাকে জিগ্যেস করবে, 'কোন আরিফ? ক্লাসে তো দুজন আরিফ আছে।' 
তখন আপনি বলবেন হয় চশমা-পরা আরিফ, কিংবা চশমা-ছাড়া আরিফ। 


এই যে আপনি দুজন আরিফকে তাদের একটি বৈশিষ্ট্য দিয়ে আলাদা করলেন, এই বৈশিষ্ট্যটিই 
হলো ফিচার (৪০৪০/৪)। তার মানে ফিচার হচ্ছে সেই সমস্ত অনন্য বৈশিষ্ট্য, যা কোনো কিছুকে 
আর দশটি সামঞ্জস্যপূর্ণ জিনিস থেকেও সহজে আলাদা করে ফেলতে পারে। 


এখন, আমরা যদি কম্পিউটারকে কোনো কিছু চেনাতে চাই, তাহলে কী করব? ধরুন, আমরা যদি 
কম্পিউটারকে একটি জিরাফ চেনাতে চাই, তাহলে, প্রথমে আমরা কী করব? কম্পিউটারকে ট্রেনিং 
দেব। কীভাবে ট্রেনিং দেব? তাকে বিভিন্ন প্রাণীর ছবি ইনপুট হিসেবে দেব এবং সেই সঙ্গে সেই 
সব প্রাণীর লেজের দৈর্ঘ্য, গলার দৈর্ঘ্য, মাথার ওপরে শিং আছে কি নেই _ এসব ডেটাও ইনপুট 
হিসেবে দেব টেবিল 2.2-এর মতো)। অথবা তাদের এমনভাবে নির্দেশ দেব, যাতে তারা সেই 
ফিচারগুলো নিজেরাই ছবি থেকে বিভিন্ন আযালগরিদম ব্যবহার করে বের করে নিতে পারে। 


এখন ধরা বাক, বদি সুপারভাইজড লার্নিং হয়, তাহলে তাদেরকে এইসব ফিচার ডেটার সঙ্গে সঙ্গে 
এটিও বলে দেওয়া হবে কোনটি জিরাফ, আর কোনটি জিরাফ নয়। তখন, আমাদের ডেটাকে বলা 
হবে লেবেলড ডেটা (,91১61190 1)909)। লেবেলড ডেটাতে আউটপুটের প্রকৃত মান বলে দেওয়া 
থাকে। টেবিল 2.2 থেকে যদি বলতে যাই, শেষের কলামটি হচ্ছে প্রাণীর লেবেল অর্থাৎ সে 
জিরাফ, নাকি জিরাফ নয়), আর তাঁর আগের যাবতীয় সব কলাম হচ্ছে ফিচার ডেটা। 


কিন্তু, যদি আনসুপারভাইজড লার্নিং হয়, তাহলে আর কম্পিউটারকে বলে দেওয়া হবে না যে, 
কোনটি জিরাফ আর কোনটি নয়। কম্পিউটার নিজে নিজেই ফিচার ডেটার মধ্যে একটি সামঞ্জসা 
বের করার চেষ্টা করবে। তখন আমাদের ডেটাকে বলা হবে আনলেবেলড ডেটা (000179০11৩0 
10919) অর্থাৎ ডেটাতে আউটপুটের প্রকৃত মান বলে দেওয়া থাকবে না। টেবিল 2.2 থেকে যদি 
বলতে ঘাই, টেবিলের শেষের কলামটি দেওয়া না থাকলেই এটি হয়ে যাবে আনলেবেলড ডেটা। 


এইসব ডেটা (লেবেলড/আনলেবেলড) কম্পিউটার তার ডেটাবেজে মংরক্ষণ করে রাখবে। 
এরপরে কম্পিউটারকে আমরা নতুন কতগুলো ভিন্ন ভিন্ন গ্রাণীর ছবি দেব, যে ছবিগুলো আগে সে 


২৯ 


মেশিন লার্নিং আালগরিদম 
নেন লে ছবিগুলোর মধ্যে কোনগুলো জিরাফ আর কোনগুলো জিরাফ নয় কম্পিউটার সেটি 
চিহ্িত করবে। 
এটি করার জনয সে প্রথমে যাকরবে, সেটি হলো নতুন ছবির প্রাদীটির গলা লেজ, মাথা _ এগুলো 
এনা কবে তারপরে গলার দৈর্্যনিউমেরিক ডেটা), লেজের দৈর্ঘ্য নিউমেরিক রিক ডেটা), মাথায় 
শির মতো বন্ত আছে কি নেই হ্যোনা, বাইনারি ডেটা হতে পারে) ইত্যাদি বের করে নেবে। 
এরপরে নিজের ডেটাবেজে থাকা তথ্যের সঙ্গে এই নতুন পাওয়া তথ্য মিলিয়ে দেখবে যে দুটো 
মোটামুটি কাছাকাছিহয কি না। যদি হয়, তাহলে ছবিটাকে জিরাফ বলে শনাক্ত করবে' নচেনয়। 
আগেই বলেছি, আমাদের কাছে থাকা সমস্ত ডেটার মধ্যে যেসব ডেটা কম্পিউটারকে সাহায্য করছে 
কোনটি জিরাফ আর কোনটি জিরাফ নয় সেটি শনাক্ত করতে (লেজের দৈর্ঘ্য, গলার দর, শি্ের 
উপস্থিতি ইত্যাদি), সেগুলোকে আমরা বলব ফিচার। আর ইনপুট থেকে ফিচার ডেটা হিনাব কষে 
বের করে নেওয়াকে বলে ফিচার একসট্র্যাকশন (2980076 700:800097)। তার মানে, টেবিল 22 
থেকে যদি বলি, লেজের দৈর্ঘ্য, গলার দৈর্ঘ্য এবং শির মতো বস্তর উপস্থিতি- এই তিনটি তথয 
ফিচার ডেটা হিসেবে কাজ করবে। 
ফিচার ডেটা নিয়ে হিসাব কষে, ত্যানালাইসিস করে কম্পিউটার যে ফলাফল দেবে সেটাই হবে 
আমাদের কাজিক্ত আউটপুট। এই আউটপুটকে আবার রেসপন্স ভ্যারিয়েবল (09590156 
%2119012)-ও বলে। 
কম্পিউটারকে ভিন্ন ভিন্ন কতগুলো প্রাণীর ছবি দিয়ে সেগুলোর মধ্যে কোনগুলো জিরাফ আর 
কোনগুলো জিরাফ নয়, সেগুলো শনাক্ত করতে দিলে কম্পিউটার বিভিন্ন আযানালাইসিস করে 
প্রতিটি ছবির জন্য ছবিটি জিরাফের হলে স্ক্রিনে যা লেখা প্রিন্ট করবে, আর জিরাফ না হলে 'না' 
লেখা প্রিন্ট করবে। এটাই হলো রেসপন্স ভ্যারিয়েবল বা আউটপুট । যেমন টেবিল 2:2-4. 
একেবারের ডান কলামের মানগুলো হলো রেসপন্স ভ্যারিয়েবলের মান। 


তাহলে রেসপন্স ভ্যারিয়েবল আর লেবেল-এর মধ্যে পার্থক্য কী? রেসপন্স ভ্যারিয়েবল হচ্ছে আমার 
আ্যালগরিদম যে মান আউটপুট হিসেবে দিচ্ছে সেটি। আর লেবেল হচ্ছে সেই মান দ্বারা আসনে 
কী বোঝানো হচ্ছে সেটি। 


ধরা যাক, কম্পিউটার যদি জিরাফের ছবি পায়, তাহলে সে 1 আউটপুট দেবে, আর না পেলে 
আউটপুট দেবে। এই 1 ও 0 হচ্ছে রেসপন্স ভ্যারিয়েবল যেটি আযালগরিদম আমাকে সরাসরি 
দিচ্ছে। আর ] মানে হচ্ছে 'জিরাফ', এখানে এই জিরাফটি হলো লেবেল। 


একইভাবে 0 মানে হচ্ছে 'জিরাফ নয়', এখানে 'জিরাফ নয়' এটি হচ্ছে লেবেল। 


৩০ 


অধ্যায় ২ : বিভিন্ন ধরনের লার্নিং ও অন্যান্য 


পরিচ্ছেদ ২.৩ : ট্রেনিং, টেস্ট ও ভ্যালিডেশন ডেটা [খ211708, [59 900 
9110900710909) 


বে ডেটা দিয়ে আমরা কম্পিউটারকে ট্রেনিং দেব, সে ডেটাকে বলে ট্রেনিং ডেটা নে11017 
10409)। আর বে ডেটা দিয়ে আমরা কম্পিউটারের ট্রেনিং শেষ হওয়ার পর তার পারফরম্যান্স 
আযানালাইসিস করব যে তার কাজে নে কতটুকু ভালো করছে, সেই ডেটাকে আমরা বলব 'টেস্ট 
ডেটা ('65010908)' | সাধারণত পুরো ডেটাসেটকে দুই ভাগে ভাগ করে একটি ভাগকে ট্রেনিং 
ডেটা, অন্যটিকে টেস্ট ডেটা এভাবে ব্যবহার করা হয় ড9109007) 0813-এর ব্যাপারে পরে 
বর্ণনা করছি)। যেমন, আমার কাছে 100 ডেটা থাকলে 60টি ডেটা দিয়ে আমি ট্রেনিং দিতে পারি 
এবং বাকি 40টি ডেটা দিয়ে আমি টেস্ট করতে পারি। এই অনুপাতটি আমার কাজের প্রকারভেদের 
ওপরে নির্ভর করবে। কোনটি ট্রেনিং সেটে যাবে, আর কোনটি টেস্ট সেটে, এগুলো দৈবভাবে বা 
র্যানডমলি নির্বাচন করা হয়। 


এই ট্রেনিং আর টেস্ট ডেটার ব্যাপারটি আরেকটু খোলাসা করে বলি। ধরা যাক, সুপারভাইজড 

নং নিয়ে আমরা কাজ করছি। তার মানে আমাদের ডেটা অবশাই হবে লেবেলড ডেটা, অর্থাৎ, 
রেসপন্স ভ্যারিয়েবলের আসল মান কিংবা সোজা কথায় আউটপুট কী হবে তা আমাদের আগে 
থেকেই জানা। এখন ধরা যাক, আমাদের কাছে 100টি ছবির লেবেলড ডেটা আছে। এর মধ্যে 
50টি আমাদের ট্রেনিং ডেটা, আর বাকি 50টি টেস্ট ডেটা। 


এখন ট্রেনিং ডেটা দিয়ে কম্পিউটার মূলত যা করবে সেটি হলো, সে মনে রাখার চেষ্টা করবে ফিচার 
ডেটার কোনটির মান ঠিক কী রকম হলে সেটি জিরাফ হচ্ছে, আর কী রকম হলে সেটি জিরাফ 
বাদে অন্য প্রাণী হচ্ছে। এরপর তাকে যখন টেস্ট ডেটা দেওয়া হবে, তখন সে সেই টেস্ট ডেটার 
ওপরে ফিচার ডেটার কোনাটির মান ঠিক কী রকম হলে সোটি জিরাফ হচ্ছে আর কী রকম হলে 
সোটি জিরাফ বাদে অন্য এাণী হচ্ছে' _ এই জ্ঞানটুকু, যা সে ট্রেনিং ডেটা আ্যানালাইসিস করে 
পেয়েছে, প্রয়োগ করে দেখবে। ত্যানালাইসিস প্রয়োগ করার পরে সে যে রেসপন্স ভ্যারিয়েবল 
তাহলেই বুঝব আমাদের মেশিন শিখতে পেরেছে। 


দুর্বোধ্য মনে হচ্ছে, তাই না? 


তাহলে সময় নষ্ট না করে উদাহরণে যাই। টেবিল 2.2 দিয়েই বর্ণনা করি। টেবিলে দেখা যাচ্ছে, 
5টি ছবির ডেটা দেওয়া আছে। আগেই বলেছি, আমরা সুপারভাইজড লার্নিং ব্যবহার করছি। তাই, 
আমাদের ডেটা হবে লেবেলড ডেটা, মানে রেসপন্স ভ্যারিয়েবলের আসল ভ্যালু দেওয়া থাকবে 
(ডান দিকের কলাম)। 
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মেশিন লার্নিং আযালগরিদম 

্ ঙ ঢং টি টেস্ট ডেটা। ধরি 

চটি ডেটার মধ্যে প্রথম ওটি আমাদের ট্রেনি পরের 2 । 

এখন ধরা মক, এই থে বালপিউটারহিনাবকিতাব করে বের করল যে লেজের সদ্য দে 

বা এর কাছাকাছি হলে গলার দৈর্ঘ্য 8 সেমি বা এর কাছাকাছি হলে এবং শিঙের মতো বস্তু উপস্থিত 

থাকলে সেই প্রাণী জিরাফ, আর নাহলে সেটি অন্য প্রাণী। জিরাফ হতে হলে এই ওটি 

রিকোয়ারমেন্ট/কন্ডিশনই সত্যি হতে হবে। 

এখন যদি কম্পিউটারকে টেস্ট ডেটা দেওয়া হয় & ও 5 নম্বর ছবির ডেটা) তাহলে কম্পিউটার 

কী আউটপুট দেবে, বলতে পারবে? 4 নম্বর ছবির জন্য কম্পিউটার অবশ্যই 'না' আউটপুট দেবে, 

কারণ শিঙের মতো বস্তু নেই, আর গলা-লেজের দৈর্ঘ্যও আমাদের রিকোয়ারমেন্টের কাছাকাছি 

নেই। কিন্তু 5 নম্বর ছবির জন্য কম্পিউটার অবশ্যই 'হ্যা' আউটপুট দেবে, কেননা এটি আমাদের 
জিরাফ হওয়ার 3টি রিকোয়ারমেন্টই পূরণ করে। 


এখন তাহলে 4 ও 5-এর জন্য কম্পিউটার আউটপুট দেবে যথাক্রমে 'না' ও 'হ্যাঁ' -যা কিনা 
আমাদের কাছে থাকা অরিজিনাল আউটপুট ভ্যালুর সঙ্গে মিলে যাচ্ছে চোর্টে মিলিয়ে দেখুন)। 


সুতরাং, আমাদের কম্পিউটারের শেখার একিউরেসি আমরা 100% বলতে পারি এই ক্ষেত্রে 
বোস্তবে এটি হয় না বললেই চলে কারণ আমরা বাস্তবে আরো অনেক ডেটা নিয়ে কাজ করি, 
ফলাফল ভুল হওয়ার আশঙ্কাও অনেক বেশি থাকে সে ক্ষেত্রে)। 


একটি কথা খুব ভালোমতো বোঝার চেষ্টা করতে হবে, টেস্ট ডেটা নিয়ে কম্পিউটার যখন কাজ 
করে, তখন সে কিন্তু যেই রেসপন্স ভ্যারিয়েবলের ভ্যালু দেওয়া আছে, সেইটাই আউটপুট হিসেবে 
দিযে দেয় না। সে ট্রেনিং ডেটা থেকে পাওয়া রিকোয়ারমেন্ট অনুযায়ী আযানালাইসিস করে প্রতিটি 
টেস্ট ডেটার জন্য একটি করে আউটপুট দেয়। 


এরপর সেটি আমাদের কাছে থাকা টেস্ট ডেটার অরিজিনাল আউটপুটের সঙ্গে মিলিয়ে দেখা হয় 
যে কয়টি মিলল আর কয়টি ভুল করল কম্পিউটার। এরপর সেই হিসাবে তখন একিউরেসি মাপা 
হয়, যেভাবে আমরা একটু আগে করে দেখালাম। 


যা-ই হোক, এতক্ষণ আমরা দেখলাম ট্রেনিং ডেটা ও টেস্ট ডেটার ধারণাটুকু। এখান থেকে এতটুকু 


বোনা মাচ্ছে যে, মডেল একেবারে নিজেকে ট্রেনিং দিয়ে পুরোপুরি তৈরি করে না ফেলা পর্যন্ত টেন্ট 
ডেটার দেখা পায় না, তাই না? 


অধ্যায় ২: বিভিন্ন ধরনের লার্নিং ও অন্যান্য 
নিজেকে এই যে প্রস্তুত করার ব্যাপারটি হলো অনেকটা ট্রেনিং ডেটা দিয়ে নিজেকে ট্রেনিং দেওয়ার 
মতো। 


আর যখন সমস্ত প্রস্তুতি শেষে পরীক্ষা দিতে যাবেন এবং পরীক্ষার রেজাল্ট আপনাকে বলে দেবে 
আপনার স্কোর কত হয়েছে, সেটাই কিন্তু বলে দেবে আপনার প্রস্তুতি আসলেই কতটুকু ভালো ছিল। 
পরীক্ষার প্রশ্নই হচ্ছে আপনার টেস্ট ডেটা। আপনি কি পরীক্ষার প্রশ্ন কখনো আগেভাগে দেখে 
ফেলতে পারেন? কখনোই না, তাই না? ঠিক সেরকম, টেস্ট ডেটাও কখনো মডেলকে দেখতে 
দেওয়া হয় না। আগে সে সম্পূর্ণ প্রস্তুত হয়, এর পরে টেস্ট ডেটা হাতে পায়। 


সবশেষে বলি, ভ্যালিডেশন ডেটার কথা। ভ্যালিডেশন ডেটা আপনার ট্রেনিং ডেটারই একটি অংশ, 
যেটি আপনার মডেল কতটুকু ভালো হয়েছে, আরো কতটুকু ভালো করা দরকার, মডেলের বিভিন্ন 
প্যারামিটারগুলো টিউন করার কাজ ইত্যাদি করতে সাহায্য করে। 


এটি অনেকটা মূল পরীক্ষার পূর্বে, পরীক্ষার প্রস্তুতি হিসেবে মডেল টেস্ট দেওয়ার মতো। আপনি 
পড়াশোনা করে নিজেকে প্রস্তুত করলেন মূল পরীক্ষার জন্য (ট্রেনিং ডেটা), এরপর মূল পরীক্ষার 
আগে নিজের দুর্বলতা ঝালাই করে নেওয়ার জন্য মূল পরীক্ষার প্রশ্নের আদলেই কয়েকটি মডেল 
টেস্ট দিলেন ভ্যোলিডেশন ডেটা) এবং সেখান থেকে নিজের দুর্বলতা সব বের করে নিজেকে 
একেবারে প্রস্তুত করে তবেই ফাইনাল পরীক্ষা দিতে গেলেন (টেস্ট ডেটা)। 

অর্থাৎ বলা চলে, ভ্যালিডেশন ডেটা হচ্ছে টেস্ট ডেটার মতোই এক ধরনের ডেটা, যা মডেল 
আগেভাগে ট্রেনিংয়ের সময় দেখতে পারে না। ট্রেনিং শেষ হওয়ার পরে নিজেকে কিছুটা যাচাই 
করার জন্য এটি ব্যবহার করে নিজেকে ঠিকমতো “টিউন' করে নিতে পারে, যাতে সে টেস্ট ডেটার 
ওপরে ভালো কলাফল করে। মূলত মডেলকে ভালো পারফরম করতে ঠিকমতো আপডেট করাই 
হচ্ছে এই ভ্যালিডেশন ডেটার উদ্দেশ্য। 


আমরা তাহলে যেটি করতে পারি, আমাদের গোটা ডেটাসেটকে এখন তিন ভাগে ভাগ করতে 


ধরুন আপনার কাছে যদি 100টি ডেটা থাকে, আপনি 60টি দিয়ে ট্রেনিং দিলেন, 20টি দিয়ে 
ভ্যালিডেশন করলেন এবং বাকি 20টি একেবারে সব প্রস্ত্রতি শেষে টেস্ট করার জন্য রেখে দিলেন। 


মোটামুটি এই হচ্ছে ট্রেনিং, ভ্যালিডেশন ও টেস্ট ডেটার ধারণা। আশা করি, সবাই বুঝতে 
পেরেছেন। 


মেশিন লার্নিং আ্যালগরিদম 
পরিচ্ছেদ ২৪ : ক্রস ভ্যালিডেশন (07955 ড91109001) 


ভ্যালিডেশন 11040101) মেশি 
রা গুলিয়ে ফেলবেন না। দুটি একেবারে ভিন্ন ধারণা। 


এটির বিস্তারিত উদাহরণে যাওয়ার আগে দুটো ছোটো গল্প বলি। 

ইশতিয়াক । সামনে তার অঙ্ক পরীক্ষা। অঙ্ক বইতে মোট অধ্যায় আছে 10টি। 
য়া রিনি রন 5 অধ্যায়ের ওপরে পরীক্ষা হবে, তাই ইশতিয়াক 
বইয়ের প্রথম 5 অধ্যায় পড়ে পরীক্ষা দিতে গেল। এখন ইশতিয়াক যদি পরীক্ষায় দিতে গিয়ে 
দেখে পুরো বই থেকেই প্রশ্ন হয়েছে, শুধু প্রথম 5 অধ্যায় থেকে নয়; তাহলে ইশতিয়াক পরীক্ষায় 
খারাপ করবে। তাই না? এখন, তার এই পরীক্ষায় খারাপ করার ওপরে ভিত্তি করে কেউ যদি বলে 
যে ইশতিয়াক খারাপ ছাত্র, সে পড়াশোনা করে না একদমই, তাহলে কি ঠিক হবে? 


আবার ধরা যাক, ইশতিয়াকের স্যার বললেন, পরীক্ষা হবে পুরো বইয়ের ওপরে, অর্থাৎ 10টি 
অধ্যায়ই সিলেবাসে থাকবে। ইশতিয়াক এবারে পুরো বইটা পড়ে পরীক্ষার হলে গিয়ে দেখল, শুধু 
প্রথম 5 অধ্যায় থেকেই সব প্রশ্ন এসেছে, পরের 5 অধ্যায় থেকে কিছুই আসেনি। এই পরীক্ষার 
ইশতিয়াক খুব ভালো নম্বর পেল। কিন্তু, এই পরীক্ষায় কি ইশতিয়াকের সঠিক মূল্যায়ন হলো? 
আমরা কি এই শুধু ফলাফলের ওপর ভিত্তি করেই তাকে ভালো ছাত্র বলতে পারব? 


ওপরের দুটো ক্ষেত্রের কোনোটিতেই আমরা সঠিকভাবে ইশতিয়াককে মূল্যায়ন করিনি। 
সঠিকভাবে মূল্যায়ন তখনই হতো, যদি যতগুলো অধ্যায় পরীক্ষায় দেওয়া হয়েছে সবগুলো থেকেই 
ইশতিয়াককে প্রশ্ন করা হতো এবং যতটুকু সিলেবাস তার মধ্যে থেকেই প্রশ্ন করা হতো। 


এখন আসি ক্রস ভ্যালিডেশনের ক্ষেত্রে। আমরা ইতিমধ্যেই দেখেছি যে, আমরা যে ডেটাসেট নিই, 
তার কিছু অংশ আমরা ট্রেনিং ডেটা হিসেবে ব্যবহার করি, আর বাকি অংশ টেস্ট ডেটা হিসেবে। 
এখন, ধরা যাক, আমার কাছে 100টি ডেটা পয়েন্ট আছে। এই ডেটা সেটকে, 5টি সমান ভাগে 
ভাগ করব। তাহলে আমার প্রতি ভাগে ডেটা পয়েন্ট থাকবে 20টি করে, ঠিক? টেবিল 2.4.1-এর 
দিকে তাকালে বোঝা যাবে ভালোমতো । আমাদের ডেটাসেটের এই পাঁচটি সাবসেটকে আমরা 
যথাক্রমে 101,102, 03,194 ও 195 নাম দিয়ে চিহিত করে দিই। 
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টেবিল: 24.1 


এখন 'আমরা যদি এতচ্গণ যেভাবে ট্রেনিং ও টেস্ট ডেটার বিষয়টি বুঝে এলাম, সেইভাবে 
ডেটাসেটটিকে ভাগ করি, তাহলে ধরি, 1)1,1)2,1)3,1)4 গেল ট্রেনিং সেট-এ এবং 05 গেল টেস্ট 


৩৪ 


নন লার্নিংয়ের অত্যন্ত গুরুত্বপূর্ণ একটি ধারণা। এর : 


অধ্যায় ২:বিভিন্ন ধরনের লার্নিং ও অন্যান্য 
সেট-এ। এটি আমরা র্যানডমলি সিদ্ধান্ত নিলাম। আমরা শুধু 01, 92 ও 03-কেও ট্রেনিং সেট-এ 
দিয়ে 24ও 05-কে টেস্ট সেটে দিতে পারতাম। এটি কীভাবে ভাগ হবে তার স্বাধীনতা পুরোপুরি 
প্রোগ্রামারের কাছে থাকবে। 


এখন, আমরা যদি 191, 12, 703, 104 দিয়ে ট্রেইন করে 75 দিয়ে টেস্ট করে যে মডেল 
ইভ্যালুয়েশন পাব মেডেল ইভ্যালুয়েশন মানে হচ্ছে আমাদের মেশিন লার্নিং আযালগরিদম কতটুকু 
ভালো পারফরম করল, বা কতটুকু ভুলত্রান্তি করল সেটি বের করা), সেটাকে কি আমাদের পুরোপুরি 
সঠিক বলে ধরে নেওয়াটা ঠিক হবে? এটি অনেকটা ইশতিয়াকের প্রথম উদাহরণটির মতো হয়ে 
যাচ্ছে না, যেখানে এমন জিনিস পরীক্ষায় চলে এসেছে, যেটি সিলেবাসে ছিল না, যার ফলে 
ইশতিয়াক সেটি পড়েইনি? সাধারণত হ্যাঁ, আমরা টেস্ট ডেটা হিসেবে এমন ডেটা ব্যবহার করি, 
যেটি আমাদের মেশিন লার্নিং আযালগরিদম আগে কখনো দেখেনি। কিন্তু এই ক্ষেত্রে শুধু একটি 
অচেনা ডেটা সেট দিয়ে ইভ্যালুয়েশন করেই, আমাদের মডেল ভালো না খারাপ, সেই সিদ্ধান্তে 
উপনীত হওয়াটা ঠিক হবে না। আমাদের আরো একটু বেশি পরীক্ষা-নিরীক্ষা করতে হবে। 


আবার, আমরা যদি, 91, 02, 03, 04, 195 সবগুলো ডেটা দিয়ে প্রথমেই একবারে ট্রেইন করে 
ফেলি এবং তারপর শুধু 01,102, 3, 94 কিংবা 15 এদের যে-কোনো একটি দিয়ে টেস্ট করি, 
তাহলে সেটাও ভুল হবে। কেননা, আমাদের টেস্ট করতে হয় এমন ডেটা দিয়ে, যেটি আমাদের 
মেশিন লার্নিং আালগরিদম আগে কখনো দেখেনি। কিন্তু এই ক্ষেত্রে মেশিন সমস্ত ডেটাই দেখে 
ফেলেছে। 


আমাদের ট্রেনিং ও টেস্ট ডেটায় গোটা ডেটাসেট ভাগ করার সময় লক্ষ্য এটি থাকে যে আমরা 
ট্রেনিং ডেটা যত বেশি পারা যায় নেব, যাতে করে মেশিন ভালোভাবে শিখতে পারে; এবং টেস্ট 
ডেটাও ঘত বেশি পারা বায় নেব, যাতে আমরা ভালোভাবে টেস্ট করতে পারি। আমরা যদি মাত্র 
2-ওটি ডেটা নিয়ে টেস্ট করে ভালো ফলাফল পেয়েই বলে দিই যে আমাদের মেশিন শিখে গেছে, 
তাহলে কি ব্যাপারটা ঠিক হবে? মোটেও নয়। আমাদের যত ভিন্ন ভিন্ন উপায়ে, যত ভালোভাবে 
পারা যায় টেস্ট করতে হবে, যাতে মেশিনের শেখায় কোনো ধরনের ফাঁকফোকর না থেকে যায়। 


আর এখান থেকেই ক্রস ভ্যালিডেশনের উৎ্পত্তি। ক্রস ভ্যালিডেশনে যেটি হয় যে, আমরা প্রথমেই 
ডেটাসেটকে 1-সংখ্যক সমান ভাগে ভাগ করে ফেলি। ভাগটা হয় র্যানডমলি। এটাকে 1401 
07055 991105007ও বলা হয়। এরপর এই 1-সংখ্যক ভাগ থেকে প্রতিবার (₹-1)-সংখ্যক ভাগ 
দিয়ে মেশিন লার্নিং আলগরিদমকে ট্রেইন করি এবং ঝাকি ভাগটি দিয়ে টেস্ট করি। তাই, যেটি 
হয় যে, আমাদের 1-সংখ্যক ভাগের ভেতরে প্রতিটি ভাগই একবার-না-একবার টেস্ট হিসেবে 
ব্যবহ্বত হবে। একটি লুপ চালিয়ে সেটাকে 1-সংখ্যকবার ঘুরিয়ে এই কাজটি করা হয় এবং প্রতিটি 
ভিন্ন ভিন্ন টেস্ট সেটের জন্য ভিন্ন ভিন্ন পারফরম্যান্স ভ্যালু বের করা হয়। এরপর সবশেষে, সমস্ত 


৩৫ 


মেশিন লার্নিং আ্যালগরিদম 


পারা ভার পদ নেওয়া হয় যেটি কিনা এই মডেল সত্যিকারেইকতটহ ভালোনা 


খারাপ, সেটি প্রকাশ করবে। 


নিচের চার্টটি চোর্ট 2.41) দেখুন : 
[900] শান 5৪৮ 1195 56 [96100177091709 
00109 50078 
1 02,703, 04,705 1101 
2 101, 03, 04,105 
ও 101, 02, 04,105 
বৃ 01, 02,03,105 | 04 
5 101,102, 03,104 105 55 
চার্ট 24-1 
এখন তাহলে ফাইনাল মডেল ইভ্যালুয়েশন স্কোর হচ্ছে - নি টে 
অর্থাৎ, আমাদের এই উদাহরণের ক্ষেত্রে ₹ ১/+১2+১444-৯ 
5 
ক্রস ভ্যালিডেশন একটি চমৎকার জিনিস। এখানে একটু খেয়াল করলে দেখবেন, আমরা কৌশলে 


বির ডি অর 
টি বারা নার 

ইশতিয়াকের উদাহরণটির মতো হয়ে গেল, যেখানে পুরো বই:ই সিলেবাসে ছিল এবং প্রশ্ন 
পুরো বই থেকেই হয়েছে। সুতরাং আমরা বলতে পারি যে, ক্রস ভ্যালিডেশন করে আমরা কটি 
মডেল ভালো নাখারাপ -এ ব্যাপারে যেত সৌঁছাব সেটি মোটামুটি ভি ও রহণযোগা 


হবে। তো, 
| রী মোটামুটি এই হচ্ছে ক্রস ভ্যালিডেশনের ধারণাটুকু। আশা করি, সবাই বুঝতে 


এরম হোটোখাটো-আরো কিছু বিষয় আছে। সব এখানে একেবারে লিখলাম না। সামনে কাজ 
ও পা দরকার হবে তখন সেটি লিখে দেব। আর আগেই বলেছি, এই বইতে 
ততটুকু শিখব) মেশিন জানি যাথ আমরা একটু কম কম করে দেখিয়ে যেটুকু না হবেই নয 
রে ং আসলে কীভাবে ব্যবহার করা যায় সেটি উদাহরণ আকারে | 
র চেষ্টা করব যতটা সহজ করে পারা যায়, বোঝার। | | 


তো শুরু করা যাক? 


অধ্যায় ৩ : লিনিয়ার রিগ্রেশন (0477991 [২975551020) ] 


পরিচিত, অনেকে নয়। যাঁরা পরিসংখ্যান বা 
স্ট্যাটিসটিকস ($0805005) পড়েছেন, তাঁরা হয়তো 
জানেন এই পদ্ধতিটি সম্পর্কে। এটি আসলে 
পরিসংখ্যানের একটি পদ্ধতি। আর বর্তমানে এটি 
মেশিন লার্নিং আযালগরিদমগ্ডলোর মধ্যে অন্যতম 
জনপ্রিয় একটি পদ্ধতি। এটি এত জনপ্রিয় হওয়ার মূল 
কারণ হয়তো এর সহজবোধ্যতা। 


গ্যালটনকে ি181)05 091607), 1822 - 1911)। 
তিনিই প্রথম পরিসংখ্যানে এই রিগ্রেশনের ব্যবহার ৃ 
ছবি 3.1:17:917015 02100 (1822 _ 1911) 


পরিচ্ছেদ ৩.১: লিনিয়ার রিগ্রেশন কী 


তাত্বিক আলোচনায় যাওয়ার আগে, আমাদের দৈনন্দিন জীবনের সঙ্গে মিলে যায়, এরকম একটি 
ঘটনা দিয়ে বোঝার চেষ্টা করা যাক লিনিয়ার রিগ্রেশন ব্যাপারটি কী। এটি আসলে আমার খুব প্রিয় 
একটি উদাহরণ। ক্লাসে আমার ছাত্রছাত্রীদের বোঝানোর সময়েও আমি এই উদাহরণটি ব্যবহার 
করি। এই উদাহরণটি আগেও একবার বর্ণনা করা হয়েছে। আপনাদের সুবিধার্থে আমি আবারও 
এটি বর্ণনা করছি এখানে। 


ধরা যাক, আপনাকে বিভিন্ন সাইজের ইঞ্চির) পিজার দাম দেওয়া আছে (আগের অধ্যায়ে দেওয়া 
উদাহরণের মতো)। এই ডেটার ওপরে ভিত্তি করে আপনাকে এখন কাজ করতে হবে। আপনার 
কাছে থাকা ডেটা টেবিল 3.1.1-এ দেওয়া হলো। 


এখন এই দামগ্ডলোর ওপর ভিত্তি করে, আপনাকে যদি আন্দাজ করতে দেওয়া হয় যে 17 ইথ্ 
কোনো একটি পিৎজা যদি বানানো হয়, তবে সেই পিৎজার দাম কত হবে, তাহলে কি আপনি সেটি 
আন্দাজ করতে পারবেন? যদি পারেন তাহলে সেটি কীভাবে করবেন? 
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মেশিন লার্নিং আযালগরিদম 
[লিজার সাইজ | পিৎজার দাম 


হেঞ্িতে) ! টোকায়) 
6” 350/-] 
৪” 775/- 
12" 1150/- 
14” 1395/- 
1675/- 
টেবিল 3.1.1 
আপনি প্রথমেই দেখবেন যে 17 সংখ্যাটির বৈশিষ্ট্য কী। এটি 14-এর চেয়ে বড়ো, কিন্তু 18-এর 
চেয়ে ছোটো, তাই না? তার মানে 17 ইঞ্চি পিৎজার দাম অবশ্যই 14 ইঞ্চি পিৎজার দামের চেন 
বেশি হবে, কিন্তু 18 ইঞ্চি পিৎজার দামের চেয়ে কম হবে। 


আবার দেখুন, আমরা যদি একটি সংখ্যারেখার কথা চিন্তা করি €ছেবি 3.1.1), তাহলে আমরা খুব 
সহজেই এটি বলতে পারি যে 1? সংখ্যাটি 14 ও 18-এর মধ্যে 18-এর বেশি কাছাকাছি, তাই 
না? এই তথ্যের ওপর ভিত্তি করে আমরা এও বলতে পারি, এখন যে 1? ইঞ্চি পিতজার দাম 18 


ইঞ্চি পিজার দামের কাছাকাছি কিছু একটা হবে। 


রে তাল775717- তর 


12345565789 1011 12 13 14 15 1617 18 19 20 


ছবি 3.1.1 


একটু ভালো করে চিন্তা করে দেখুন, আপনাকে কেউ যদি 17 ইঞ্ পিতজার দাম আন্দাজ করতে 
দিত, আপনিও মনে মনে ঠিক এভাবেই চিন্তা করতেন। শুধু আপনি অনেক দ্রুত এবং নিজের 
অজান্তেই এটি চিন্তা করে ফেলেন দেখে ঠিক অনেক সময় বুঝতে পারেন না যে, আসলে চিন্তাট 
কীভাবে করলেন। 

আপনি যদি ওপরের ঘটনাটি বুঝে থাকেন, তাহলে আপনি লিনিয়ার রিগ্রেশন বুঝে গেছেন 
অনেকখানিহ। | 
তাহলে লিনিয়ার রিখ্রেশন বিষয়টি আসলে কী? গণিতের ভাষায় বললে এটি অধীন চলক : 
0992০709))1 /91191)19) ও স্বাধীন চলকের (00019709101 /17191019) মধ্যেকার 
নির্ণয়ের একটি মাধ্যম! 
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অধ্যায় ৩ : লিনিয়ার রিগ্রেশন 0,10991-7657955107) 
একেবারেই দুর্বোধ্য মনে হচ্ছে, তাই না? আচ্ছা চলুন দেখি, এখন গণিতের ভাষার সঙ্গে আমাদের 
পিৎজার ব্যাপারটি মেলানো যায় কি না। 


আপনারা যদি একটু ভালো করে পিৎজার সাইজ ও দামগ্ডুলো লক্ষ করেন, তাহলে দেখবেন, যে 
পিতজার সাইজ যত বেড়েছে, তার দাম তত বেড়েছে। তার মানে, পিংজার দাম কত হবে সেটি 
নির্ভর করছে তার সাইজের ওপর। সাইজ যত বড়ো, দাম তত বেশি। তাহলে, এখানে পিৎজার 
দামটা পিতজার সাইজের ওপর নির্ভরশীল, তাই না? 


তাহলে কি আমরা বলতে পারি না যে, এখানে পিৎজার সাইজ হলো আমাদের স্বাধীন চলক 
(07091970017 91116) এবং পিৎজার দাম হলো অধীন চলক (96709710077 /91191916)? 


আচ্ছা, এই 1 070997097 %/1816-কে এখন থেকে 1 লিখব, আর 19979970671 
ড9016-কে লিখব 79) আর 0৬-এর মধ্যে কী সম্পর্ক সেটি নিয়ে একটু কথা বলি! এখানে 1$ 
আর 7%-এর মধ্যে সম্পর্ক বলতে আসলে বোঝাবে 1$-এর দাম এক একক (৫ 8110 বৃদ্ধি পেলে 
)৬-এর দাম কতটুকু বৃদ্ধি পাবে, সেটি নির্ণয়ের চেষ্টা করা! এটিই লিনিয়ার রিগ্রেশন। 


এ তো বললাম কঠিন গণিতের ভাষার, এখন খাবারের ভাষায় বলি। ওপরের উদাহরণ থেকে দেখুন, 
আমাদের পিৎজার সাইজ প্রতিবার বিভিন্ন আকারে বৃদ্ধি পেয়েছে। প্রথমে ছিল 6 ইঞ্চি, এর পরে ৪ 
ইঞ্চি, 12 ইঞ্চি, 14 ইঞ্চি, 18 ইঞ্চি ইত্যাদি। আমাদের এখান থেকে একটু বের করার চেষ্টা করতে 
হবে যে পিৎজার সাইজ 1 ইঞ্চি বৃদ্ধি পেলে আসলে দাম গড়ে কতটা বাড়ে । এই হিসাবটি আমরা 
যত সুন্ধ্রভাবে বের করতে পারব, তত আমাদের হিসাব নির্ভুল হবে। 


তাহলে মোদ্দা কথাটা কী দাঁড়াল? স্বাধীন চলকের মানের পরিবর্তনের সঙ্গে সঙ্গে কীভাবে অধীন 
চলকের মানের পরিবর্তন হয়, অর্থাৎ স্বাধীন ও অধীন চলকের মধ্যেকার সম্পর্কটি আসলে কী, 
সেটি নির্ণয়ের একটি পদ্ধতিই হলো লিনিয়ার রিগ্রেশন! এবং এই সম্পর্কটি যদি আমরা একবার 
বের করে ফেলতে পারি আমাদের জানা অধীন ও স্বাধীন চলকের মান থেকে, তাহলে সেই সম্পর্ক 
ব্যবহার করে আমরা স্বাধীন চলকের যে-কোনো অজানা মানের জন্য অধীন চলকের মান বের করে 
ফেলতে পারি। 


অর্থাৎ, এই যে 5টি ভিন্ন ভিন্ন সাইজের পিৎজার দাম ও সাইজ যে আমাদের দেওয়া ছিল, সেখান 
থেকে আমরা যদি সাইজ ও দামের মধ্যে একটি সহজ-সরল সম্পর্ক বের করে ফেলতে পারি, 
তাহলে সেই সম্পর্ক ব্যবহার করে খুব সহজেই এমন কোনো সাইজের পিৎজা, যার দাম আমরা 
জানি না যেমন 17 ইঞ্চি পিৎজা), তার দামও আন্দাজ করে বলে দিতে পারি। দামটি পুরোপুরি 
সঠিক না হলেও, খুব কাছাকাছি একটি মান হবে। আমাদের এখনকার কাজের জন্য সেটুকুই 


যথেষ্ট। 


৩৯ 


মেশিন লার্নিংআ্যালগরিদম | 
পরিচ্ছেদ ৩.২ : নিউমেরিকাল আ্যানালাইসিস 00009005]4109199) ব্যবহায 


লিনিয়ার রিগ্রেশন দুই পদ্ধতিতে করা যায়। প্রথম পদ্ধতিটি অপেক্ষাকৃত সহজ, শুধু সূত্র প্রয়োগ 
করতে হবে, আর কিছু নয়। এটি একটি নিউমেরিকাল ত্যানালাইসিস মেথড। তাই এটি দিয়েই 
শুরু করি। 


ধারণাটি বুঝব। দেখি কতদূর এগোতে পাঃ রর র 
ধরার দাম ও সাইজের টেবিলটিকে আমরা ডেটাসেট বলব) আবার এখানে দিচ্ছি টন 


3.2.) 
পিৎজার সাইজ ; পিৎজার দাম 

(ইঞ্চিতে) (টাকায়) 
6” 350/- 
৪” 775/- 
12” 1150/- 
14” 1395/- 
18” 1675/- 

টেবিল : 3.2.1 


আমরা বলেছিলাম,আমাদের লক্ষ্য হচ্ছে, যে ডেটাসেট আমাদের কাছে আছে, সেটি ব্যবহার করে 
আমাদের বের করতে হবে 17 ইঞ্চি পিৎজার দাম কত টাকা, তাই না? 


দাম বের করার আগে আমরা যদি একটি গ্রাফ আঁকার চেষ্টা করি, যেখানে /-অক্ষ বরাবর নেব 
আমাদের স্বাধীন চলক, যেটি হলো পিৎজার সাইজ এবং ঘৃ-অক্ষ বরাবর নেব আমাদের অধীন 
চলক, যা হলো পিৎজার দাম। তাহলে আমাদের গ্রাফের চেহারাটি দাঁড়াবে ছবি 3.2.1-এর গ্রাফের 
মতো। 


আশা করছি, গ্রাফটি সবাই বুঝতে পেরেছেন? এই গ্রাফে দেখুন 5টি বিন্দু বা পয়েন্ট আছে,আমরা 
এগুলোকে বলব আমাদের ডেটা পয়েন্ট। এখন আসি মূল কথায়। আমাদের যেটি করতে হবে, এই 
ডেটাপয়েন্টগুলোর মধ্যে আমাদের একটি সম্পর্ক বের করে ফেলতে হবে, তাই না? যদি ঠিক ঠিক 
পিৎজার দাম বের করে ফেলতে পারব। 


অধ্যায় ৩ : লিনিয়ার রিগ্রেশন 0.177601.[২০£7959107) 


রর 
৮ 


4 


টি 


৯ 
ও 


10 12 
পিৎজার সাইজ (ইঞ্চিতে) 


গ্রাফ 3.2.1: পিৎজার সাইজ ও দামের মধ্যে সম্পর্ক 


এখন, কতগুলো বিন্দুর মধ্যে সবচেয়ে সহজ-সরল সম্পর্ক কী হতে পারে? উত্তর হচ্ছে - একটি 
সরলরেখা। আমরা যদি এমন একটি সরলরেখা বের করতে পারি, যার ওপরে আমাদের সবগুলো 
ডেটা পয়েন্ট অবস্থান করে, তাহলে কী হবে? ওই সরলরেখার সমীকরণে প্রতিটি বিন্দুর মান বসালে 
সমীকরণের দুই পক্ষ সমান পাব। মনে করে দেখুন, ছোটোবেলায় আমরা পড়েছিলাম, যে-কোনো 
সরলরেখার সমীকরণে ওই সরলরেখার ওপরের কোনো বিন্দুর মান বসালে আমরা সমীকরণটিকে 
সিদ্ধ করতে পারি, এরকম একটি কথা ছিল। 


তাই, আমাদেরকে একটি সরলরেখা আঁকার চেষ্টা করতে হবে। লক্ষ্য থাকবে এমন একটি 
সরলরেখা খুজে বের করা, যা আমাদের সবগুলো ডেটা পয়েন্টের ওপর দিয়ে যায়, অর্থাৎ সবগুলো 
ডেটা পয়েন্ট আমাদের সরলরেখাটির সমীকরণকে সিদ্ধ করে। সেরকম যদি কোনো সরলরেখা না- 
ও পাই, অন্তত এমন কোনো সরলরেখা বের করতে হবে, যা থেকে আমাদের সবগুলো 
ডেটাপয়েন্টের দূরত্ব সর্বনিয় হয়। 


এখানে লক্ষণীয়, আমরা হয়তো-বা সরলরেখা না এঁকে আঁকাবাঁকা বক্ররেখা বা কার্ভ (07৪) 
আঁকার চেষ্টা করতে পারি। কেননা এমনও হতে পারে যে, আমরা একটি সরলরেখা আঁকলে সেটি 
সবগুলো ডেটা পয়েন্ট দিয়ে যাচ্ছে না কিন্তু যদি একটি কার্ভ আঁকি, তাহলে সেটি সবগুলো ডেটা 
পয়েন্ট দিয়ে যাচ্ছে। কিন্তু, সে ক্ষেত্রে তাহলে সেটি আর লিনিয়ার বা সরলরৈখিক থাকবে না 
সেমীকরণের হিসেবে যদি বলি, »-এর সর্বোচ্চ ঘাত আর 1 থাকবে না, এর বেশি হয়ে যাবে)। 


৪১ 


মেশিন লার্নিং আালগরিদম 


॥/ _77%4+6. (এখানে % হচ্ছে স্বাধীন চলক, % হচ্ছে ,-এর ফাংশন এবং সমীকরণটি 
লিনিয়ার, কেননা স্বাধীন চলকের সর্বোচ্চ ঘাত 1) 


এখন যদি আমরা কোনো বক্ররেখা বা কার্ত আঁকতে যাই, তখন অবশ্যই আমাদের %-এর ঘাতের 
মান 1-এর চেয়ে বেশি হতে হবে, যেমন, 


% ₹৪)0+৮/+ 0, এটি একটি বক্ররেখার সমীকরণ প্যোরাবোলা বা অধিবৃত্ত) 


আমরা যেহেতু লিনিয়ার রিগ্রেশন পড়ছি, তাই আপাতত আমরা সরলরেখার মধ্যেই সীমাবদ্ধ 
থাকছি। 


এখন, আমরা একটি ফাংশন চিন্তা করি, যার নাম দিলাম /()। ফাংশনটি দেখতে হবে এরকম - 
10)» 

অর্থাৎ, ফাংশনটিতে আমরা /-এর মান (পিংজার সাইজ) ইনপুট দিলে, ফাংশনটি আমাদের 

আউটপুট দেবে %, যেটি কিনা পিৎজার দাম। আমরা তো এই জাদুর ফাংশনটিই খুঁজে বের করতে 


চাইছি, তাই নয় কি? মনে করে দেখুন, আমরা পড়েছিলাম, ফাংশন হচ্ছে এক ধরনের অন্বয় বা 
সম্পর্ক, আমাদের ইনপুট ও আউটপুটের ভেতরে । আমরা এই সম্পর্কটিই খুঁজে বের করতে চাইছি। 


আমরা, / ৫) _ 7৫4 লিখতে পারি অবশ্যই, যেহেতু আমরা সরলরেখা বের করতে চাইছি, 
তাই এটাই হবে আমাদের ফাংশনের গাণিতিক রূপ। তাহলে, শেষমেশ দাঁড়াল _ 


1 77740 


এখন, আমাদের এই সমীকরণে 7 হলো ঢাল বা স্ত্রোপ, যেটি সরলরেখার দিক নির্ধারণ করে। 
মানে, সেটি ॥-অক্ষের ধনাত্বক দিকের সঙ্গে কত ডিগ্রি কোণ করে আছে তার 1'27897/এর 
মানকে বোঝায়। আর ০ হলো *%-অক্ষের কর্তিত অংশ বা ইন্টারসেপ্ট 077070920-এর মান, 
অর্থাৎ সরলরেখাটই %-অক্ষকে কোন বিন্দুতে ছেদ করেছে তার মান। 


এখন, ॥ ও ০-এর ভিন্ন ভিন্ন অসীমসংখ্যক মানের জন্য আমরা কিন্তু অসংখ্য সরলরেখা পাব। 


সেই সরলরেখাগুলো /-অক্ষের ধনাত্মক দিকের সঙ্গে বিভিন্ন কোণ করে থাকবে এবং তারা %- 
অক্ষকে বিভিন্ন বিন্দুতে ছেদ করবে। 


আমরা ধরে নিই যে, 14/0741 ও 07 হচ্ছে 7% ও 210-এর সেই দুটি বিশেষ মান, যার জন্য 


আমরা আমাদের কাডিত সরলরেখাটি পেয়ে যাব যেটি আমাদের সমস্ত ডেটা পয়েন্টের ওপর 
দিয়ে যাবে। তাহলে, মানগুলো সমীকরণে বসিয়ে পাই _ 


৪২ 


অধ্যায় ৩ : লিনিয়ার রিগ্রেশন 0500091 [301.055107) 
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এ ফাংশনটি বের করাই হচ্ছে আমাদের লক্ষ্য বা টার্গেট, তাই আমরা একে বলব টার্গেট গো৭78৩) 
ফাংশন বা টু ণোণ০) ফাংশন। এই ফাংশনের সরলরেখাটি আমাদের সব ডেটা পয়েন্টের ওপর 


দিয়ে যাবে। 


কিন্তু কথা হচ্ছে, আমরা তো 11/174। ও 0//41-এর মান জানি না। তাই, আমরা র্যানডমলি দুটি 
মান দিয়ে শুরু করব। ধরি সেগুলো 71 ও ৫, সুতরাং সরলরেখাটির সমীকরণ তখন হবে, 
1 4১771 4+01 

হয়তো আমরা শুরুতে দেখলাম, আমাদের এই 7: ও ৫1-এর মানের জন্য এমন একটি সরলরেখা 
পেয়েছি, যেটি আমাদের 5টি ডেটা পয়েন্টের মধ্যে মাত্র একটি ডেটা পয়েন্টের ওপর দিরে গেছে, 
বাকি 4টির ধারেকাছে দিয়েও যায়নি। তখন আমরা যোগ, বিয়োগ, গুণ, ভাগ ইত্যাদি নানা 
গাণিতিক অপারেশন চালিয়ে চেষ্টা করব আমাদের 717 ও ০-এর মানগুলোকে 11772. ও 0/77417 
এর মানের যত কাছাকাছি পারা যায় নিয়ে আসতে, যাতে করে আমাদের সরলরেখাটি সবগুলো 
ডেটা পয়েন্টের ওপর দিয়ে যায়। 


এই যে, প্রতিবার আমরা একেকটি 7 ও ০-এর মান পাচ্ছি যেমন 7%1, ০ পেলাম ইত্যাদি) 
সেগুলোকে আমাদের ফাংশনে বসালে আমরা যে সমীকরণটি পাই, তাকে বলা হয় হাইপোথিসিস। 
সমস্ত সম্ভাব্য হাইপোথিসিস নিয়ে তৈরি হয় হাইপোথিসিস স্পেইস (7799075515 50509)। তার 
মধ্যে থেকে যেটি সবচেয়ে ভালো ফলাফল দেয়, আমরা তাকেই আমাদের ফাইনাল হাইপোথিসিস 
হিসেবে বেছে নিই। 


যেমন, % ₹ % ৮74 + 2, এটি একটি হাইপোথিসিস। এই হাইপোথিসিস হচ্ছে এমন একটি 
ফাংশন, বেটিকে আমরা আমাদের টার্গেট ফাংশনের সঙ্গে মিলে যেতে পারে বলে ধরে নিই এবং 
পরে হিসাবনিকাশ করে দেখি যে আসলেই মিলে যাচ্ছে কি না। 


আমরা 7 ও ৫-এর ওপরে গাণিতিক বিভিন্ন অপারেশন চালিয়ে, ধরি, নতুন আরো দুটি মান 
পেলাম -72 ও 2ে। সুতরাং, তখন আমাদের বিবেচনার জন্য নতুন হাইপোথিসিস হবে 

175 % ৮7124 02 
এবং আমরা আবার মিলিয়ে দেখব সেটি আমাদের টার্গেট ফাংশনের মতো আচরণ করে কি না, 
অর্থাৎ সবগুলো ডেটাপয়েন্টের ওপর দিয়ে যায় কি না, বা কাছাকাছি যায় কি না। 


এই হাইপোথিসিসের ধারণাটি মেশিন লার্নিংয়ে অত্ন্ত গুরুত্ৃপূর্ণ। তাই আমি বলব, কেউ যদি 
এখনো এই ধারণাটি পরিষ্কারভাবে না বুঝে থাকেন, তাহলে অনুচ্ছেদের শুরু থেকে আরেকবার 
পড়ন। 


৪৩ 


মেশিন লার্নিং আলগরিদম 
এখন, আমরা ইতিমধ্যেই বলেছি, এত এত অসংখ্য সরলরেখার ভিড়ে আমাদের এমন একটি 
সরলরেখা খুজে বের করতে হবে, যে সরলরেখা থেকে এই 5টি বিন্দুর দূরত্ব অন্য যে-কোনো 
সরলরেখার চেয়ে কম হয়। সেই সরলরেখাটিকে আমরা অনেক সময় বলে থাকি রিগ্রেশন 
(39£7655107) লাইন, এটিই আমাদের কাজিকত সমাধান। 


এই সরলরেখাটির আরো একটি সুন্দর নাম আছে, এটাকে বলা হবে বেস্ট ফিট লাইন (9891 
1416)। এর কারণ হচ্ছে সেই সরলরেখাটা আমাদের ডেটার ভেতরে সবচেয়ে ভালো ফিট করবে 
কিংবা সবচেয়ে ভালো সমাধান দেবে। 


যা-ই হোক, আমরা আমাদের সরলরেখার অনুসন্ধানে ফেরত আসি। সরলরেখার সমীকরণের এই 
1 ও ০-এর মান ডেটাসেট থেকে সরাসরি পাওয়ার জন্য দুটি সূত্র আছে, যেটি নিউমেরিকাল 
আযানালাইসিস পদ্ধতি প্রয়োগ করে বের করা। সূত্র দুটি নিম্নব্ূপ_ 
চন্য 
এতো 
০-9-1 


এখন এই সূত্র দুটি টেবিল 3.2.2-এর ডেটার ওপরে বাবহার করে আমরা 7) ও ০-এর মান নির্ণয় 


করে ফেলি চলুন : 
[৮] ৮৯ 
2100 | 36 
৪1 7751] 62001] 64 
141 1395 1 19530 | 196 
[18 11675 | 30150 | 324 
টেবিল 3.2.2 
এখন ॥1-এর মান বের করার জন্য যা যা লাগবে, চলুন সেগুলো বের করে ফেলি - 


স2০+৪+12+74+29 
টি 5 


নু 11.6 


350+775+ 1150 + 1395 +1675 
৯২২৯ ১1069 


ছুড় _ 2109+ 6200 + 13800 + 29530 + 30150 
% ২২২২২ স্ত্রী ৮ স্লিরর856 


শা 


৪৪ 


অধ্যায় ৩: লিনিয়ার রিগ্রেশন (1,107691 1২007655107) 
(৯) _ ৫1.6)2 ₹ 134.56 


ওহ -_ 36+64+144+196+ 324 
5 


পর 


ন 152.8 


1) 3:07:5 1069) 11356 _ 59556 
134.56-152.8.... _18.24 


_ 107.21 
এখন 7 9 ও মমান ও) নম্বরে বসিয়ে পাই, 
0 _ 1069- 0107.21 ৮ 11.6) _ _174-6 
সুতরাং, আমাদের কাজিক্ষত সরলরেখার সমীকরণ দাঁড়াল _ 
9 ৯ 107.212_174.6 
এটিই আমাদের রিগ্রেশন লাইন বা বেস্ট ফিট লাইন। 


এখন এই রেখার সমীকরণে যদি আমরা % _ 1? বসাই, তাহলেই আমরা পেয়ে যাব আমাদের 
17 ইঞ্চির পিৎজার দাম, 


যা আসলে হবে ল (107.21 ৮% 17) _174.6 ল 1647.96 টাকা। 


গিৎজার সাইজ (ইঞ্চিতে) 


এফ 3.22:পিৎজার সাইজ ও দামের মধো সম্পর্ক 


৪৫ 


মেশিন লার্নিং আযালগরিদম 
এবং আমরা যদি এখন আমাদের গ্রাফ 3.2.1-এ আমাদের রিগ্রেশন লাইন এবং নতুন পাওয়া 17 
ইঞ্চি পিৎজার দাম যোগ করি তাহলে আমরা গ্রাফ 3.2.2-এর মতো একটি গ্রাফ পাব। 


গ্রাফটিতে আমরা ধূসর রঙের ডটেড যেই লাইনটি দেখতে পাচ্ছি, সেটিই আমাদের রিগ্রেশন 
লাইন। আর এই লাইনের ওপরের কালো রঙের একটি বড়ো বিন্দু দেখতে পাচ্ছি আমরা, সেটিই 
হলো আমাদের নতুন পাওয়া ডেটা পয়েন্ট _ (17, 1647.96)। 


এখানে আরেকটি বিষয় আপনাদের জানিয়ে রাখি। আপনার লিনিয়ার রিগ্রেশনের হাইপোথিসিস 
আসলে কতটুকু ভালো পারফরম করছে, অর্থাৎ আপনার হাইপোথিসিস কত ভালো ফিট করছে 
আপনার ডেটার ভেতরে, সেটি পরীক্ষা করার জন্য লিনিয়ার রিগ্রেশনের ক্ষেত্রে একটি মান বের 
করা হয়, যেটাকে বলা হয় আর-স্ষয়ারড মান (7২-5008760 $9106)। এর মান 0% থেকে 
100%-এর মধ্যে যে-কোনো কিছু হতে পারে। এই 1২-5088760 মান হচ্ছে একটি ভালো-মন্দের 
সূচকের মতো। কোনো হাইপোথিসিসের জন্য মান যত বেশি হবে, আমরা বুঝে নেব সেই 
হাইপোথিসিস মডেল তত ভালোভাবে ফিট করবে ডেটার ভেতর। এটি নিয়ে বিস্তারিত আলোচনা 
করা হয়েছে পরিচ্ছেদ ১৩.১-এ। 


আমাদের এই সরলরেখার ক্ষেত্রে ২-50018760 ৪119-এর মান বের করার জন্য আমরা নিচের 
সৃত্রটি ব্যবহার করব _ 


_ 5153 (0 ১) 
টা 0/- চা ] 
এখানে %, 7 ও 31 হচ্ছে যথাক্রমে আমাদের মডেলের আন্দাজ করা প্রতিটি মান, সমস্ত 
আউটপুটের প্রকৃত মান এবং প্রতিটি প্রকৃত আউটপুটের মান। 
আমাদের কাজিক্ষিত সরলরেখার সমীকরণ ছিল _ 
) ল 107.21% _174.6 


এখন আমরা এই সমীকরণ ব্যবহার করে *-এর বিভিন্ন মানের জন্য আমাদের লিনিয়ার মডেলের 
প্রেডিকশন বের করে ফেলতে পারি। 
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%-» 6, 7 5 468.66 
%_ 8, ) _ 683.08 
%-» 12, 7 ₹ 1111.92 
%» 14, 7 _ 1326.34 
% _» 18, 7 ৯ 1755.18 


মানগুলোকে 1-590976৫ $918০-এর সূত্রে বসিয়ে পাই, 


৪৬ 


অধ্যায় ৩ : লিনিয়ার রিগ্রেশন (.11621-136270551017) 


(468.88-1069)2+0683.08-1069)2+(1111.92-1069)2+01326.34-1069)2+01755-18-1069)2 
468.88-1069)2+(683-08-1069)2+(1111.92-1069)2+01326-34-1069):+01755-18-1069)- 


2 
(350-1069)2+0775-1069)2+(1150-1069)2+(1395-1069)2+01675-1969)2 


তি 360144.01+118934.26+18042.13+96223.8804-170942.99 

ও 516961186430+9501 +1092.76+3607230 

₹0.96 
সব সময় আমাদের লক্ষ্য থাকবে, 1২-5009/00 মান ম্যাক্সিমাইজ (498101126) করে এমন 
হাইগোথিসিস খুঁজে বের করা। অর্থাৎ ॥॥ ও ০-এর এমন মান বের করা যার জন্য 3-5009160 
মান 1009 বা এর সর্বোচ্চ যতটুকু কাছাকাছি যাওয়া সম্ভব, ততটুকু যায় এবং আমরা 
নিউমেরিকাল আ্যানালাইসিস মেথড প্রয়োগ করে সরাসরি কীভাবে সেই 7 ও ০-এর মান বের করা 
যায়, সেটি একটু আগেই দেখেছি। 
আপনারা যদি এ পর্যন্ত মোটামুটি বুঝে থাকেন, তাহলে আপনারা এখন নিউমেরিকাল 
আ্যানালাইসিস মেথড প্রয়োগ করে লিনিয়ার রিগ্রেশন অনেকখানিই বুঝে গেছেন এবং এখন 
আপনারা এটি নিজেরাই হাতে কলমে কোড করতে পারবেন বলে আশা করছি। 


তবে আর দেরি কেন, এখনই বসে পড়ন কোড করতে। 


পরিচ্ছেদ ৩.৩ : গ্রেডিয়েন্ট ডিসেন্ট আ্যালগরিদম (07501906 1095057 
4150]া000) 


পুরোনো একটি আযালগরিদম। এর সূচনা হয় 

অগাস্টিন লুইস কদির (/04500-1,0015 

09807; 1789-1857) হাত ধরে। তিনিই 

প্রথন 9/7/725 7274/5/2 17497) 

425 58/7255 জার্নালে এই গ্রেডিয়েন্ট তার 

ডিসেন্ট নাঘে নন লিনিয়ার অপটিমাইজেশন | ২./) 

মেথডটি উল্লেখ করেন। কিন্তু পরবর্তীকালে “উন 

জেফরি হিনটন 08০179) 11009, 1947) | দি 

প্রথম মেশিন লার্নিহয়ে গ্রেডিয়েন্ট ডিসেন্ট চু 

আযালগরিদম ব্যবহার করেন। সুভরাৎ, জেফরি ৮ ১ ট [ 

হিনটনকেই মেশিন লার্নিংয়ে গ্রেডিয়েন্ট ্‌ /) ॥ | 

ডিসেন্ট-এর জনক বলা চলে। ৫0111110780 
ছবি 3.3.1 (জেফ হিনউন (0১০1005) 11000101, 

1999) 


৮৭ 


মেশিন লার্নিং আযালগরিদম 


আ্যালগরিদম আসলে কী এবং কীভাবে কাজ করে। 


বুঝে নিতে হবে যে গ্রেডিযেন্ট ডিসেন্ট 
একটু আগে আমরা কতগুলো সূরে মান বলিযেসরাদরি হিসাব কবে 7:2২ রনির 
মোটামুটি সঠিক। এখন , আমরা এই সূত্র দিয়ে মান বের না করে অন্য এ পদ্ধতিতে 
রি পা ও ৫.এর মান জানা নেই, তাই আমরা প্রথমেই আন্দাজে 


চিন্তা করি। ধরা যাক, আমাদের যেহেতু 71 
(7900011) আমাদের 7 ও ০-এর দুটো মান ধরে নিই। এটি আপনারা যে-কোনো কিছু ধরতে 


পারেন। আমি ধরেনিলাম 7: 50,০- 100। আপনারা অন্য কোনো মান ধরতে পারেন, তাতে 


কোনো অসুবিধা নেই। 
তাহলে, এখন আমাদের সরলরেখার সমীকরণ দাঁড়াল - 5০৮ + 100 এবং এটিতে আমাদের 
জানা «-এর মানগুলো থেকে যে-কোনো একটি যদি বসাই (যেমন, % - 6), তাহলে আমরা পাই 


3 _ 4001 এটি কিন্তু আমাদের আসল দামের সঙ্গে মিলল না, কেননা আসল দাম দেওয়া আছে 
350টাকা। এখানে যেটি হলো, আমরা আসলে শুরুতে ভুল আন্দাজ করেছিলাম 7 ও ০-এর মান, 
যার কারণে আমরা 400 _ 350 _ 50 টাকার মতো গরমিল পাচ্ছি। 


এজন্য আমাদের এখন যে কাজটি করতে হবে তা হলো, ? ও ০-এর মান পরিবর্তন বা আপডেট 
করতে হবে যাতে আমাদের এই ভুল 677০” - 50 টাকা গরমিল)-এর পরিমাণ কমে আদে। 
আমাদের লক্ষ্য হলো ভুলের পরিমাণ শূন্য বা এর কাছাকাছি নামিয়ে নিয়ে আসা। অর্থাৎ 7. ও ০০ 
এর মান আপডেট করতে করতে আমাদের ততক্ষণ পর্যন্ত আপডেট করতে হবে যতক্ষণ পর্যন্ত না 
আমাদের জানা প্রতিটি ট্রেনিং ডেটার জন্য এই ভুলের পরিমাণ শূন্য বা শূন্যের যত কাছাকাছি 
নামিয়ে আনা যায়, তত কাছাকাছি নেমে আসে। এই প্রতিবার মান আপডেট করে করে ভুল (বা 
0০%.বা 87)-এর মান নামিয়ে নিয়ে আসার পদ্ধতিই হচ্ছে গ্রেডিয়েন্ট ডিসেন্ট আযালগরিদম। 


একে গ্রেডিয়েন্ট ডিসেন্ট (0790107)0105001) বলার একটি কারণ আছে। গ্রেডিয়েন্ট হলো 
সোজা করে বলতে গেলে ঢাল। এখন প্রশ্ন হচ্ছে কীসের ঢাল? কোনো একটি গ্রাফে যদি কোনো 
একটি ফাংশন প্লট করা হয়, তাহলে সেই গ্রাফের যে-কোনো একটি বিন্দুতে একটি স্পর্শক আঁকলে' 
সেটি / অক্ষের সঙ্গে যে কোণ উৎপন্ন করে থাকে তীর ট্যানজেন্ট (17887)-এর মানকে বনে 
গ্রেডিয়েন্ট। আর ডিসেন্ট শব্দের মানে হলে৷ কমানো বা কমে যাওয়া। তাঁর মানে ় 
টির এস জড় গাল াঁানাযারোহারার অর রদালেগনি 
কাছাকাছি নিয়ে আসা। শুন্যতে নিয়ে যেতে পারলে আরো ভালো। 

সন ৪৮ কী, সেটা বুঝতে ছবি 3.3.2 লক্ষ করুন। ছবিটি একটি 2) গ্রা্। 
জারা গাারাররা বিচার নি়াতার জারজ 
রাড নান রিনরএরটারতিজিলির ছিলাম, 

৪৮ 


অধ্যায় ৩ :লিনিয়ার রিগ্রেশন (005171621- 8622551011) 
এখন গ্রেডিয়েন্ট ডিসেন্ট বোঝার সুবিধার্থে, আপাতত আমরা ধরে নিই আমাদের ০ - 11 এটি 
পরিবর্তিত হবে না, একই থাকবে। পরিবর্তন হবে শুধু 7-এর মান। এখন আমরা যদি এরকম 
একটি ফাংশন চিন্তা করি, যা ইনপুট হিসেবে নেবে 7ঃ-এর মান এবং আউটপুট হিসেবে দেবে 
এরর কিংবা কস্ট-এর মান; এবং আমরা এই মানগুলো দিয়ে যদি একটি 27 গ্রাফ আঁকি, যেখানে 
/অক্ষ বরাবর নেব 7 এবং % অক্ষ বরাবর নেব 0০5 তাহলে আমরা নিচের 20 গ্রাফগুলোর 
মতো একটি গ্রাফ পাব গ্রোফ 3.3.2)। আমরা এখানে 4টি সেরকম 2 গ্রাফ নিয়েছি। 


গ্রাফ 3.3.2 


1, 2 ও ও নম্বর গ্রাফে দেখুন, আমরা তিনটি ভিন্ন ভিন্ন পয়োন্টে (গোল কালো পয়েন্ট) স্পর্শক 
এঁকেছি। তিনটি স্পর্শকের ক্ষেত্রেই যদি আমরা স্পর্শকটির সঙ্গে '-অক্ষ কত ডিগ্রি কোণ উৎপন্ন 
করে আছে সেটি হিসাব করি এবং সেই কোণের 119।)201 বের করি, তাহলে দেখব কোনোটির 
মানই শুন্য হয় না। তাঁর মানে ॥-এর এই মানগুলোর জন্য আসলে ভুলের মান সর্বনিয় আসবে 
না। কিন্তু 4 নম্বর গ্রাফে দেখুন, আমরা 7॥-এর যে মান নিয়েছি, সেই ডেটাপয়েন্টে যদি আমরা 
স্পর্শক আঁকি, তাহলে সেটি ১-অক্ষের সমান্তরাল হয়। তাঁর মানে /-অক্ষের সঙ্গে স্পর্শকের কোণের 
মান 0ডিগ্রি। অর্থাৎ, ঢাল হবে £৫7:00) ₹ 0। অর্থাৎ, আমরা ঢালের মান সর্বনিয়ে নামিয়ে আনতে 
পেরেছি, তাঁর মানে এই পয়েন্টে কস্ট-এর মানও সর্বনিম্ন । কস্ট-এর মান 0 হবে - এরকম কোনো 
কথা নেই। কস্ট-এর মান সর্বনিয় হলেই হলো। আমরা তাই এভাবে, শুরুতে আন্দাজে 
(0২৪0710171)7%-এর যে-কোনো একটি মান ধরে নেব, এর পর ধাপে ধাপে 7-এর মান আপডেট 
করতে করতে 4 নম্বর গ্রাফের মতো অবস্থায় নিয়ে আসব, যাতে আমরা সর্বনিয় কস্ট পাই। 


আশা করি সবাই কিছুটা হলেও গ্রেডিয়েন্ট ডিসেন্ট আযালগরিদমের ধারণা বুঝতে পেরেছেন। 
এখানে আরেকটি গ্রাফ দেওয়া হলো (গ্রাফ 3.3.3)। এটি একটি 3) গ্রাফ। আগের বার আমরা 
০-এর মান ঠিক রেখে শুধু ঢ1-এর মান পরিবর্তন করেছিলাম। এবার আর তা নয়। 7 ও € দুটিই 
পরিবর্তিত হবে। তার মানে আমাদের ফিচার দাঁড়াল দুটি। আর সেই সঙ্গে আছে কম্ট। তাই 
আমাদের গ্রাফটি হচ্ছে 3) গ্রাফ। এই গ্রাফের ॥-অক্ষ ও %-অক্ষ বরাবর আমরা নিয়েছি 7 ও ০ 
যাদেরকে এখানে 1 ও //, হিসেবে চিহিত করা হয়েছে। এর বিপরীতে, কস্ট বা এরর 07০) 
প্লট করা হয়েছে 2-অক্ষ বরাবর, যাকে ৪1৮] ছারা চিহিত করা হয়েছে। আমাদের লক্ষ্য হচ্ছে 


৪৯ 


মেশিন লার্নিং আলগরিদম 
আবারও আগের মতোই গ্রাফের সর্বনিয় বিন্দুতে পৌঁছানো, যেইখানে স্পর্শক আঁকলে তাঁর ঢাল. 
এর মান শূন্য হবে। 


ডু 


ঘ১৩১৩৩৯৩ 
১৩৯৩৯৯৩৩১৩৩ 
ৰা ০০৩০৯৩৯৩৩১৩ 


গ্রাফ 3.3.3 


আমরা আবারও 7 ও ০-এর ভ্যালু আগের মতোই আন্দাজে কোনো একটি মান দিয়ে শুরু করব, 
তারপর দুটির মানই আপডেট করতে থাকব, যতক্ষণ পর্যন্ত না গ্রাফের সর্বনিম্ন অবস্থানে পৌঁছাচ্ছি। 
এটিই গ্রেডিয়েন্ট ডিসেন্ট। গ্রাফ 3.3.3-তে দেখুন, আমরা 51% লেখা পয়েন্ট থেকে শুরু 
করেছিলাম এবং দেখুন পয়েন্টটি কিন্তু আমাদের গ্রাউন্ড (এখানে গ্রাউন্ড বলতে আসলে গ্রাফ 
3-3.3-এ দেখানো 7//০ _11/. তল বোঝানো হয়েছে) থেকে অনেক উঁচুতে, অর্থাৎ 0.০অনেক 
বেশি। এরপর আমরা আস্তে আস্তে মান আপডেট করতে করতে £7এ পয়েন্টে এসে পৌঁছেছি, 
যেটি একেবারে গ্রাউন্ডে, অর্থাৎ ৪:০7-এর মান শন্য। একটু ভালো করে লক্ষ করবেন, 0 
থেকে 130৫-এ যাওয়ার ব্যাপারটি এখানে ছবি দেখে অনেকটা চাদরের গা বেয়ে স্্াইড করে নামার 


মতো মনে হচ্ছে এবং ব্যাপারটি খুবই মজার। ব্যাপারটি ঘটেও অনেকটা এরকমভাবেই। এই 
চাদরের মতো তলটিকে বলা হয় এরর গ্লেন (80০৮ [1817)। 


এখানে আরেকটি বিষয় উল্লেখ্য। একটি গ্রাফে অনেকগুলো সর্বনিয় বিন্দু 0/17110]0120100 
বাকতে পারে এবং সবগুলো বিন্দুতেইস্পর্শকের চালের মান শূন্য আসতে পারে। সেসব বিন্দুকে 
আমরা বলব লোকাল মিনিমা (.০০থ 1110178)। আর লোকাল মিনিমার মধ্যে যে লোকাল 


৫০ 


অধ্যায় ৩ : লিনিয়ার রিগ্রেশন (01776৭1 76£6551017) 
মিনিমাম বিন্দু সর্বনিয়, তাকে বলব গ্লোবাল মিনিমাম (01০৮এ] 11171711), যদি একাধিক 
গ্লোবাল মিনিমাম থাকে, তাহলে তাদের বলব গ্লোবাল মিনিমা (010৮9111171713)। নিচের ছবিটি 
দেখলে ধারণাটি আরেকটু পরিক্ষার হবে। 


1,0091111111179 
10091111179 010799115111011170 


গ্রাফ 3.3.4 


গ্রাফ 3.3.4-এ দেখুন, মোট তিনটি মিনিমাম পয়েন্ট আছে, এর মধ্যে একেবারে ডানে যেটি, সেটিই 
হচ্ছে আমাদের গ্লোবাল মিনিমাম, বাকি দুটি লোকাল মিনিমা। আমাদের সব সময় লক্ষ্য থাকবে 
যে, আমরা গ্লোবাল মিনিমাম পয়েন্টে পৌঁছাব। 


একটি জিনিস লক্ষ করবেন, আমি যখন গ্রেডিয়েন্ট ডিসেন্ট আযালগরিদম ব্যবহার করছি, তখন 
আমি শুধু এরর প্রেন বেয়ে শুধু নিচের দিকে যেতে পারব, ওপরের দিকে কখনোই উঠতে পারব 
না। এর কারণ হচ্ছে, আমরা চাইছি কম্ট/এরর মিনিমাইজ করতে, তাই না? আমরা যদি এরর 
প্লেন বেয়ে ওপরের দিকে উঠি, তাহলে কিন্তু আমাদের এরর বাড়তে থাকবে, যা আমাদের জন্য 
/810/90 নয়। তাই, আমরা শুধু এরর প্লেন বেয়ে নিচের দিকেই যেতে পারব, ওপরের দিকে 
উঠতে পারব না। 


এখন ধরুন, আমরা এমনভাবে আমাদের ॥ ০-এর মান ধরেছি, যে আমরা এরর প্লেনে 4 অবস্থানে 
আছি। যদিও আমাদের এরর প্লেনের গ্রাফটি 3) গ্রাফ ছিল, এখানে বোঝানোর সুবিধার জন্য 2) 
আকারে দেখাচ্ছি। আমাদের লক্ষ্য হচ্ছে 4, পয়েন্ট থেকে একেবারে ডান দিকে থাকা গ্লোবাল 
মিনিমাম পয়েন্টে আমাদের পৌঁছুতে হবে। এজন্য আমরা যেহেতু শুধু নিচের দিকে যেতে পারব, 
তাই ডান দিকের ঢাল বেয়ে নিচের দিকে নামতে থাকি (অনেকটা পাহাড় থেকে নামার মতো)। 
নামতে নামতে একসময় দেখুন আমরা একটি লোকাল মিনিমাম পয়েন্টে এসে আটকা পড়ে যাব! 


কেননা, আমাদের যদি গ্লোবাল মিনিমামে পৌঁছুতে হয়, তাহলে আমাদের লোকাল মিনিমান পার 
হয়ে পাহাড় বেয়ে ওপরে উঠে আবার নিচে নামতে হবে, তবেই আমরা সেখানে পৌঁছুতে পারব। 
কিন্তু, পাহাড় বেয়ে ওপরে ওঠা আমাদের জন্য &110%/90 নয়, সেটি আগেই বলা হয়েছে। তাহলে 
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মেশিন লার্নিং আযালগরিদম 

লোকাল মিনিমান পয়েন্টে আটকা পড়ে গেলাম এবং এখান থেকে 

বার বের হতে পারবনা, আমাদেরআ্যালগরিদম এটিকেই আমাদের সমাধান হিসেবে 

করবে যদিও এটি মোটেই গ্লোবাল মিনিমাম নয়। এই ধরনের পরিস্থিতিকে বলা হয় 9401 

1,০০1 141717101 যেটি মেশিন লার্নিংয়ের ক্ষেত্রে খুবই সাধারণ একটি সমস্যা। 

এর সমাধানটি খুবই সহজ। আমাদের আবার গোড়া থেকে পুরো আ্যালগরিদম শুরু করতে হব 
৫এর অন্য আরেকটি মান ধরে নিতে হবে। এবার ধরা যাক, আমরা 

৪ অবস্থান থেকে শুরু করলাম। এবারও দেখুন, আমরা যেহেতু কেবল নিচে 


ব্যাপারটি কী দাঁড়াল? আমরা 


রু থেকে শুরু করতে হবে। এবার আমরা 77, ০-এর মান র্যানডমলি 


তখন আমাদের আবার শু. 
নিয়ে, ধরা যাক, তঅবস্থান থেকে শুরু করি, তাহলে দেখুন এবার কিন্তু আমরা ডান দিক দিয়ে নিচে 
নামতে নামতে গ্লোবাল মিনিমাম পয়েন্টে পৌঁছে যাব। এই পদ্ধতিকে বলা হয় 739110011 79911 


এবং এটি ততক্ষণ পর্যন্ত আমরা করতে থাকব যতক্ষণ পর্যন্ত না আমরা গ্রোবাল মিনিমান পয়েন্টে 
পৌঁছাচ্ছি কিংবা আমাদের ইটারেশন গ্রেশহোল্ড (100790101) 10016511014 _ সর্বোচ্চ কতবার 
01098 1/1011007 খুঁজে না পাওয়া পর্যন্ত 34007 1651 করতে পারব তার একটি মান 
নির্ধারিত করে দেওয়া থাকে) অতিক্রম করে যাচ্ছি। 


এখন কথা হচ্ছে, আযালগরিদমের তো জানার কথা নয় যে 019১2 বা 1০01 1/11111011-এর 
মান কত, তাহলে সে কেমন করে বুঝবে যে সে মিনিমামে পৌঁছেছে কি না। এর উত্তর হচ্ছে, আমরা 
প্রতিবার লুপ ঘুরে আসার পরে যাচাই করে দেখব যে, আমরা বর্তমান 7% ০-এর জন্য 70701-এর 
যে মান পেলাম, সেটি আগে যতবার লুপ ঘুরেছে প্রতিবারের পাওয়া সব ৪7০7-এর মানের মধ্যে 
সর্বনিয় কি না, যদি হয় তাহলে এটি মিনিমাম মান হিসেবে সংরক্ষণ করব, আর যদি না হয়, তাহণে 
এবারের আগ পর্যন্ত মিনিমাম মান যা ছিল তা-ই থাকবে এবং পরের বার লুপ চালাব। এভাবে 
একসময় লুপ চলতে চলতে যদি আমরা দেখি যে বেশ অনেকবার লুপ চলেছে আর আমাদের 
থ্রেশহোন্ডও পূর্ণ হয়ে গেছেকিন্ত ৪্লা০-এর মান আর কমছে না, তখন ধরে নেব 0701-এর মান 
এর চেয়ে আর কমা সম্ভব নয়। তখন তাকেই আমরা সর্বনিয় মান হিসেবে ধরে নেব। 


এখন, এই সর্বনিয় মান 01০৭1/.০০হ] যে-কোনোটিই হতে পারে। তাই, তাকে আবার যাচাই 
করে নেওয়ার জন্য 7100111/ আরো বেশ কয়েকবার 76901" করে পুরো লুপ চালাব। রন 
আমি 3 বার 7970010 [২৪521 করলাম, প্রতিবার আমি 10 বার করে লুপ চালালাম। 

1২70017 [365097৮এ আমি এররের মান পেলাম ধরা যাক 10, দ্বিতীয়বার পেলাম 8 এগ 
তৃতীয়বার পেলাম 4। সুতরাং এই তিনটির মধ্যে সর্বনি় হচ্ছে 4, আর তাই তৃতীয় 84740” 


৫২ 


অধ্যায় ৩: লিনিয়ার রিগ্রেশন (0176এ12£555107) 
19474, যে গা, ০-এর জন্য আমরা ৪7০৮ হিসেবে 4 পেয়েছি, সেই 7, ০-এর মানই হবে 
আমার বেস্ট ফিট লাইনের 7% ০-এর মান। 
এই হচ্ছে ্রেডিয়েন্ট ডিসেন্ট আ্যালগরিদম সম্পর্কে যতটুকু জানার দরকার তার বিস্তারিত। পরবর্তী 


সময়ে আমরা দেখব কীভাবে গ্রেডিয়েন্ট ডিসেন্ট আ্যালগরিদম বিভিন্ন মেশিন লার্নিং পদ্ধতিতে 
ব্যবহার করতে হয়। 


পরিচ্ছেদ ৩.৪ : গ্রেডিয়েন্ট ডিসেন্ট (079016719550677) আযালগরিদম ব্যবহার 


আমরা প্রথমে দুটি ফাংশন নির্ধারণ করব, একটি হচ্ছে কস্ট ফাংশন (0০901400007), আরেকটি 
অবজেকটিভ ফাংশন (0১1০০0৮৪ 7070707)। আমাদের প্রথমে বুঝতে হবে এই দুটি ফাংশন 
আসলে কী। 


ধরা যাক, আমার বয়স 20 বছর। আমি একটি প্রোগ্রাম লিখলাম, যার কাজ হচ্ছে আমার বয়স 
আন্দাজ করা এবং যদি সে আমার ঠিক বয়স বলতে পারে, তাহলে প্রোগ্রাম বন্ধ হয়ে যাবে। আমার 
আসল বয়সকে যদি আমি / দিয়ে লিখি এবং আমার আন্দাজ করা বয়সকে যদি আমি / দিয়ে 
লিখি, তাহলে একটি কস্ট ফাংশন এরকম হতে পারে £(%) _ % _4| এটি সরাসরি আমার 
আসল বয়স এবং প্রোগ্রামের দ্বারা আন্দাজ করা বয়সের পার্থক্য রিটার্ন করবে। 


আর অবজেক্টিভ ফাংশন হচ্ছে, যে ফাংশনটিকে আমরা অপটিমাইজ করতে চাইছি, সেটিই। অর্থাৎ, 
আমাদের এই ক্ষেত্রে, আমরা চাইছি যে আমাদের কস্ট কমিয়ে আনতে, অর্থাৎ ॥-এর এমন মান 
আন্দাজ করতে চাইছি, যাতে সেটি আমার আসল বয়সের সমান হয়, ফলে কম্ট-এর মান শূন্য 
হয়। সাধারণত মেশিন লার্নিংয়ে এই কস্ট ও অবজেক্টিভ ফাংশন একই অর্থে ঘুরিয়ে-ফিরিয়ে 
ব্যবহার করা হয়। 


কন্ট ফাংশন অনেক ধরনের হতে পারে। একেকটি ব্যবহারের একেক রকম সুবিধা। আমরা 
লিনিয়ার রিগ্রেশনের ক্ষেত্রে সাধারণত যে ফাংশনটি কস্ট ফাংশন হিসেবে ব্যবহার করব, তার নাম 
50879 12170712070000। এটি খুবই জনপ্রিয় এবং খুব সম্ভবত সবচেয়ে বেশি ব্যবহৃত একটি 
কস্ট ফাংশন। 


কস্ট ফাংশনটি লেখার আগে আমরা একটি কাজ.করব, তা হলো, ০ ও 7-কে এখন থেকে আমরা 
10 ও দিয়ে প্রকাশ করব। এই 1%০, //% ইত্যাদিকে ওয়েইট ডে6181)) বলা হয়। এর কারণ 
হচ্ছে, এদেরকে যে রাশির সঙ্গে সহগ বা কো-এফিসিয়েন্ট (০০-৪01670) হিসেবে ব্যবহার করা 


হয়, এরা সেই সংখ্যার গুরুত্ব প্রকাশ করে। 
৫৩ 


মেশিন লার্নিং আলগরিদম 
আর আমাদের পরিচ্ছেদ ৩.২-এ ব্যবহৃত হাইপোথিসিসের সমীকরণে আমরা ফাইনাল আউটপুট 
বোঝানোর জন্য % ব্যবহার করেছিলাম, এখন %-এর পরিবর্তে /,(০) ব্যবহার করব। 1,(২) 
দিয়ে বোঝাবে আমরা * ডেটা পয়েন্টের জন্য কাজ করছি এবং আমাদের প্যারামিটার ঢোল ও %. 
170709) হচ্ছে ॥/ সেটের অন্তর্ভুক্ত (%0 ও ৬/1)। আমরা এই কাজটি করব আমাদের কিছু 
গাণিতিক সমীকরণ লেখার সুবিধার্থে অর্থ একই থাকবে, সমীকরণ একই থাকবে, শুধু প্রকাশকারী 
চিহৃগুলো পরিবর্তন করলাম মাত্র। 
1050) ল ৮/০ 1091 

তার মানে 7,, &)-এর মান হচ্ছে আমাদের প্রেডিকটেড (2751105) বা অনুমিত মান, যা কিনা 
আমরা 7৮০ ও ।-এর মান বের করার মাধ্যমে হিসাব করে বের করছি। আর &-কে যদি আমরা 


আমাদের আসল আউটপুটের মান ধরে নিই, যেটি আমাদের লেবেলড ট্রেনিং ডেটা হিসেবে দেওয়া 
আছে, তাহলে আমাদের এরর কিংবা কস্ট ফাংশন-এর মান প্রাথমিক রূপ দাঁড়ায়, 
7, -_% 
এখন দেখুন, আমরা যদি আমাদের কস্ট ফাংশনকে এমন একটি অবজেকটিভ ফাংশন হিসেবে 
0০5৫ 5 1৮৮0) - 
এ ক্ষেত্রে, 7.,0)-এর মান যত বেশি _০০ (168৭1195 177110/)-এর দিকে যাবে, অর্থাৎ যত 
বেশি ঝণাতুক হবে, তত কস্ট ফাংশনের মান মিনিমাইজড হবে। কিন্তু দেখুন, শুধু কম্ট ফাংশন 
মিনিমাইজ করলেই কি আমাদের কাজ হাসিল হচ্ছে? আমাদের লক্ষ্য হচ্ছে আমাদের আন্দাজ করা 
মান 7৮৮) ও আসল মান %-এর সমান করা, কিংবা যতটা পারা যায় কাছাকাছি নিয়ে আসা এবং 
তার মাধ্যমে কস্ট ফাংশনকে মিনিমাইজ করা। কিন্তু যদি, আমরা শুধু 1,,()-এর মান -০০"এর 
দিকে নিতে থাকি, তাহলে কম্ট ফাংশনের মান মিনিমাইজ হচ্ছে ঠিকই, কিন্তু দুটি মান কাছাকাছি 
আসবে বা সমান হবে, এরকম কোনো বাধ্যবাধকতা (097350:9170 তৈরি হচ্ছে না। 
তাই, আমরা কস্ট ফাংশন হিসেবে শুধু এরর ফাংশন না নিয়ে স্কয়ারড এরর ফাংশন (914761 
71707 88170001) নেব, 


0৮) -9)2 
এর ফলে একটি সুবিধা হবে যে, এই ফাংশনের মান তখনই কেবল মিনিমাইজ হবে যখন 10) 
ও % সমান বা খুব কাছাকাছি হবে। যদি /,, ৫) ও -এর মান সমান হয়, তাহলে, কম্ট ফাংশনের 
মান হবে শূন্য, ঘেটি এর সর্বনিয় মান। ॥, &৫)-এর মান আমরা এখন যতই খাণাত্বক বানাই না 
৫৪ 


অধ্যায় ৩ : লিনিয়ার রিঘ্রেশন (005 [6£5551017) 
কেন, শেষমেশ সেটি বর্গ হয়ে একটি বড়ো ধনাভ্্ক মানে পরিণত হবে, যেটি আমাদের কস্ট 
ফাংশন মিনিমাইজ করার লক্ষ্য পরিপূর্ণ করবে না। 
এভাবে 50976013770 [110001) ব্যবহার করলে যেহেতু আমরা দুটো মান সমান হওয়ার 
বাধ্যবাধকতাও দিতে পারছি এবং সেই সঙ্গে কস্ট ফাংশনও মিনিমাইজ করতে পারছি, এ কারণে 
50912011701 ফাংশনকেই আমরা কস্ট ফাংশন হিসেবে ব্যবহার করব। 
এখন, কম্ট ফাংশন হিসেবে যদি শুধু 0৮,৫১) - ৮)2 রাশিটি নিই, তাহলে আমরা যে কস্ট পাব, 
সেটি হচ্ছে আমাদের একটিমাত্র সিংগেল ডেটা পয়েন্ট কিংবা ট্রেনিং ডেটা « (একটিমাত্র পিৎজার 
সাইজ)-এর জন্য। কিন্তু আমাদের লক্ষ্য হচ্ছে সবগুলো ট্রেনিং ডেটার জন্য আমাদের একটি 
সামগ্রিক কস্ট হিসাব করা। সেটি যদি করতে হয়, তাহলে আমাদের সব ডেটা পয়েন্টের জন্য এরর 
হিসাব করে তাকে মোট ট্রেনিং ডেটার সংখ্যা দিয়ে ভাগ করে গড় মানটি নিতে হবে। যদি তা-ই 
করি, তাহলে আমাদের কস্ট ফাংশনের সর্বশেষ চেহারা দাঁড়াবে : 


_ 2 2218 (0৮0০) -১৫)* 
এখানে ৫), 9৫) মানে হচ্ছে £-তম ট্রেনিং ডেটা এবং 7 হচ্ছে মোট ট্রেনিং ডেটার সংখ্যা। এ 
ছাড়া এখানে একটি অতিরিক্ত 2 দিয়ে ভাগ করা হয়েছে কিছু গাণিতিক হিসাবের সুবিধার্থে । 
কস্ট ফাংশনটিকে আমরা যদি ] 0),/%1) দিয়ে প্রকাশ করি (শুধুই একটি গাণিতিক প্রকাশ), 
তাহলে আমাদের ফাংশনের সর্বশেষ রূপ দাঁড়ায় এরকম 

10০,:) _ যার 5 (৮০0৮০) ১9) 


এটিই আমাদের কাজিক্ষিত কস্ট ফাংশন। আমাদের লক্ষ্য হচ্ছে এই ফাংশনটির প্যারামিটার //০ ও 
৮/!-এর এমন কোনো একটি মান বের করা, যার জন্য /0০,৮/:)-এর মান সর্বনিয়ে নামিয়ে নিয়ে 
আসা (মিনিমাইজ করা) যায়। এটিই আমাদের অবজেকটিভ ফাংশন এবং এটিকে লেখা যায় 
এভাবে ; 


0/8009 72710007 _ 77217177126] (//0,//1) 


টা 
/0,0/1 


২ 270072678 চ£ (75৮(৮০১) ০] 
এখন আমাদের এই লিনিয়ার রিগ্রেশন চালানোর জন্য গ্রেডিয়েন্ট ডিসেন্টের ধাপগুলো দাঁড়াচ্ছে : 
* প্রথমে 70 ও ৮/:-কে দুটি র্যানডম মান আযাসাইন করি আপনারা দুটির মানই 1 দিয়ে 
শুরু করতে পারেন)। 
৫৫ 


মেশিন লার্নিং আযালগরিদম দি 
এরপর ৮ ও এর মান প্রতি ইটারেশনে একবার করে না করতে হবৈ 
এমনভাবে যাতে ] 0৮০, //1)-এর মান ক্রমশ কমে আসতে ছ 
একসময় দেখা যাবে 5-10 ইটারেশনের পরেও ) (/০,৮/1)-এর র উল্লেখযোগা 
হারে কমছেনা। অর্থাৎ লুপের ইটারেশন সংখ্যার বিপরীতে /(/০,%1) প্লট করলে, দেখা 
যাবে ইটারেশনের সংখ্যা একটি মান অতিক্রম করার পর গ্রাফ এক জায়গায় প্রার 
সরলরৈথিক হয়ে গেছে। হয়তো 4-5 বার লুপ ঘোরালে 0.001 কমছে কিংবা এরকম খুব 
অল্প পরিমাণে কমছে। তখন আপনি আপনার লুপ চালানো শেষ করে দিতে পারেন। 
লুপ শেষ হয়ে গেলে আপনি যে ০ ও ,/।এর মানগুলো পেলেন, এটিই এদের অপটিমাল 
ভ্যালু, যার জন্য আপনি /0%০,৮৮1)-এর মান সর্বনিয় পাচ্ছেন। 
*. এখন 9) ও %%। মান আপনি আপনার হাইপোথিসিস 1৮/() » ৮0 + ৮12, সমীকরণে 
বসালেই আপনার কাজিক্ষত হাইপোথিসিস পেয়ে যাবেন। এখন এতে কোনো অজানা *- 
এর মান বসালে আমরা তার জন্য কাজিক্ষিত আউটপুট পেয়ে যাব। 


সবশেষে যেটি বাকি থাকে, সেটি হচ্ছে আমরা /) ও //:এই প্যারামিটার দুটির মান আপডেট 
কীভাবে করব? এই আপডেটের অংশটুকুই হচ্ছে আমাদের কাজের মূল অংশ। 


এর জন্য সোজাসাপটা সূত্র হচ্ছে _ 
মিলান নানার 
9/) 7 09 ৫5%/0৮%, 


দেখতে অনেক নিরীহ মনে হলেও, আসলে অতটা সরল নয় এটি। কিছু জটিলতা আছে এর মধ্যে। 
সমীকরণটির প্রতিটি অংশের কোনটির কী অর্থ, তাহলে সেটি একটু জেনে নেওয়া যাক। 


প্রথমেই জেনে নিই, সমীকরণটি ব্যবহৃত হচ্ছে )-এর সব মানের জন্য। এখানে 7-এর মান হচ্ছে 
0,1 ইত্যাদি যা আমরা »/০,//। ইত্যাদি লেখার সময় সাবসক্রিপ্ট হিসেবে ব্যবহার করেছি। আমরা 
যদি আরো একটি ভ্যারিয়েবল নিতাম হেয়তো পিত্জার সাইজের পাশাপাশি অন্য কোনো একটি 


ফিচার) এবং তাকে হয়তো 2 দিয়ে প্রকাশ করে তাঁর জন্য ওয়েইট ৮. ব্যবহার করতাম, তাহলে 
)-এর মান হতো 0,1, 2 ইত্যাদি পর্য্ত। 


এর পরে, ৫ বলতে এখানে বোঝায় লার্নিং রেট কি। 


ত্বা স্টেপ সাইজ। ৫-এর মান যত বড়ো হবে, 


আমাদের /0৮০,/1)-এর সর্বনিম্ন মানের দিকে আগাবে 
যোগ/বিয়োগ করে আপডেট করার কারণে বেড়ো বড়ো ল্টেপ 


আমরা সর্বনিয় ] ৮৮০,9৮২) পয়েন্টটি পার হয়ে যেতে পারি (গ্রা্ 


৫৬ 


অনেক দ্রুত, কিন্তু বড়ো বড়ো মান 
নেওয়ার কারণে) অনেক সময় 


অধ্যায় ৩ : লিনিয়ার রিগ্রেশন (10521 136£5551017) 
3.4.1-এর বাঁয়ের ছবি)। আবার যদি ৫-এর মান অনেক বেশি ছোটো নিই, তাহলে আযালগরিদম 
কনভার্জ 00০7797£০) করতে অনেক বেশি সময় নেবে। অর্থাৎ সর্বনিয় ]09/০,৮:)-তে পৌঁছাতে 
অনেক বেশি ইটারেশন লাগবে (গ্রাফ 3.41-এর ডানের ছবি)। তাই ৫-এর মান খুব সাবধানে 
পছন্দ করতে হবে, যেন বেশি বড়ো না হয়, ছোটোও না হয়। এটি সাধারণত 0.01 রাখা হয়ে 
থাকে। 


18769 1,9911017 13909 3109111,641711178 909 
- 05915100017 -11917) 10679010175 01701] 


001711109 9170 0-9131)117 
10 10091 170111]79 


ছবি 3.4.1 


গ্রেডিয়েন্ট ডিসেন্টকে আরেকটু দ্রুততর করার জন্য এক ধরনের অপটিমাইজেশন চালানো হয়। 
এর পেছনে মূল ধারণাটি হচ্ছে, এটি গ্লোবাল মিনিমান থেকে যত দূরে থাকবে, লার্নিং রেট ০-এর 
মান তত বড়ো থাকবে, সে যত গ্লোবাল মিনিমামের কাছাকাছি আসতে থাকবে, ৫-এর মান তত 
কমবে। 


এখন, যেহেতু আপনি জানেন না যে গ্লোবাল মিনিমাম মানে আপনি আদৌ পৌঁছেছেন কি না, তাই 
এ ক্ষেত্রে একটি পদ্ধতি প্রয়োগ করা হয়। প্রতিবার লুপ চলার পরে, একবার করে ৪701-এর মান 
পরীক্ষা করে দেখবেন। যদি দেখেন এরর আগের বারের চেয়ে কিছুটা কমেছে (10-:০-এর চেয়ে 
বেশি কমেছে), তাহলে ৫-এর মান 5% বাড়াবেন। অর্থাৎ ৫ হয়ে যাবে 1.05 &। 


আবার যদি দেখেন, এরর আগের চেয়ে তো কমেইনি বরং বেড়েছে, সে ক্ষেত্রে ৫-এর মান হিসেবে 
শেষবার আপডেট করার আগে ৫-এর মান যা ছিল তার 50% নেবেন, অর্থাৎ ৫ হয়ে যাবে 0.5 &। 
এই অপটিমাইজেশন পদ্ধতিটির নাম হচ্ছে 3010 1)7%5। এরকম আরো কিছু অপটিমাইজেশন 


৫৭ 


মেশিন লার্নিং আলগরিদম 
আছে, যেমন _ /070700, /5071, /$00119%, 11312101) ইত্যাদি, যেগুলো আপনারা চাইলে 
এই লিংক থেকে দেখে নিতে পারেন _ 1007://000110/070101210-001070-1650001/ 
সবশেষে % দিয়ে বোঝায় »-এর সাপেক্ষ /-এর পা্শ়াল ডেরিভেটিভ। আমরা আমাদের 
সমীকরণে ব্যবহার করেছি 5,7/0%,%1) | 
সুতরাং এখানে % _ // ও 
টি ) (0//0, ৮/1) 
অর্থাৎ আমরা 1-এর প্রতিটি মানের জন্য মোট যতগুলো প্যারামিটার পাব (আমাদের ক্ষেত্রে 2টি, 
70 ও ৮1) প্রতিটির সাপেক্ষে একবার করে 10/9,৮/1)-এর পার্শিয়াল ডেরিভেটিভ নেব। 
সোজা করে বলতে গেলে, আমরা ৮০-এর সাপেক্ষে একবার /(৮/0,/1) অর্থাৎ 
1 চ। (10৮০) -১০)+কে ডিফারেন্সিয়েট করব, তারপরে %/1-এর সাপেক্ষে আবার 
277 11 ৮ ্ 
)0/0,0%1) অর্থাৎ ্ 5151 (0৫) টি ১0) -কে ডিফারেন্সিয়েট করব। 
/%-এর সাপেক্ষে ডিফারেন্সিয়েট করে আমরা যা পাব, সেটি আমরা //০-এর মান আপডেট করার 


সময় ব্যবহার করব। আর 1/।-এর সাপেক্ষে ডিফারেন্সিয়েট করে আমরা যা পাব তা //1-এর মান 
আপডেট করার সময় ব্যবহার করব। প্রতিটি আলাদা প্যারামিটারের জন্য এভাবে আলাদা আলাদা 


আপডেট করতে হবে। 
2 
এখন, আমরা যদি, ৮/-এর সাপেক্ষে একবার হুদ 25 (৮,0০) -১%) কে 


ডিফারেন্সিয়েট করি, তাহলে আমরা পাই _ 
(12 
28) 0৮৮৮). নট [2 0০০) ১) ] 


॥ 


মা 0৮৮০)-১০) 
একইভাবে, আমরা যদি, 9/।-এর সাপেক্ষে একবার হুদ 2:11 0০0০) -১০): এক 
8201 (0৮(০)- ১০) ] 


9 করার. 
91%. / (4০, দিন [ 


907 


_ 821 (0৮০) 9০).৮9 


৫৮ 


অধ্যায় ৩ :লিনিয়ার রিগ্রেশন (1191 16গা-655107) 
যাঁদের মোটামুটি ক্যালকুলাসে হাত চালু আছে, তাঁরা চাইলে হিসাব কষে মিলিয়ে দেখতে পারেন 
হিসাবটি এরকমই কি না। আমি সরাসরি উত্তর দিয়ে দিলাম, যেহেতু আগেই বলেছি আমরা থিওরি 
আর কঠিন কঠিন অঙ্ক যতটুকু লাগে ঠিক ততটুকুই শিখব। যা-ই হোক, তাহলে আমরা ৮/0 ও 1% 
এই দুটি প্যারামিটারের জন্য এই দুটি সমীকরণ ব্যবহার করব। 


এখানে একটি বিষয় খেয়াল করে দেখবেন, প্রতিবার আমরা //0 ও ৮/£ আপডেট করার সময় সমস্ত 
ট্রেনিং ডেটা ব্যবহার করছি। 74 চ:["। (1৮ (*৫)) -)/09] থেকে দেখতে পাচ্ছি আমরা এখানে 
সমস্ত ট্রেনিং ডেটার ওপরে 71101 বের করে নিচ্ছি। এই ধরনের গ্রেডিয়েন্ট ডিসেন্টকে অনেক 
সময় 39101) 217016।11)65061) বলে। 


এর আরেকটি ভার্শন আছে, যেখানে সমস্ত ট্রেনিং ডেটা ব্যবহার করার বদলে শুধু যে ট্রেনিং ডেটার 
জন্য //) ও ৮/! আপডেট করছি, শুধু সেই ট্রেনিং ডেটার জন্যই ০7701 বের করে ব্যবহার করে 
থাকি, অর্থাৎ শুধু (/, (৮৫১) _))) এতটুকু ব্যবহার করে থাকি, বাকি সব এক। সেটাকে বলা 
হয় 56090119560 01:00101 [)9500110। আপনারা যে-কোনোটিই ব্যবহার করতে পারেন, তবে 
আমি এই বইতে থিওরি বোঝানোর সময় ব্যাচ গ্রেডিয়েন্ট ডিসেন্টই ব্যবহার করব বেশিরভাগ 
সময়। 


তাহলে এই হচ্ছে গ্রেডিয়েন্ট ডিসেন্ট আযলগরিদম ব্যবহার করে কীভাবে আমরা লিনিয়ার রিগ্রেশন 
করতে পারি, তার বিস্তারিত বর্ণনা। আশা করি সবাই বুঝতে পেরেছেন। যাদের এটি বুঝতে সমস্যা 
হচ্ছে এখনো, তাঁরা পরিচ্ছেদ ৩.৮-এ গ্রেডিয়েন্ট ডিসেন্ট ব্যবহার করে কীভাবে লিনিয়ার রিগ্রেশন 
করতে হয়, সে বর্ণনাটি দেখে নিতে পারেন পরবর্তী ৩.৫ পরিচ্ছেদে যাওয়ার আগেই। 


পরিচ্ছেদ ৩.৫ : গ্রেডিয়েন্ট ডিসেন্ট (07901619067) আযালগরিদম ব্যবহার 
করে মাল্টিভ্যারিয়েট 04010951190) লিনিয়ার রিগ্রেশন 


আমরা এতক্ষণ যে লিনিয়ার রিগ্রেশন করলাম, সেটি ছিল ইউনিভ্যারিয়েট 00715411809) লিনিয়ার 
রিগ্রেশন। এর অর্থ হচ্ছে, আমাদের ফিচার/ভ্যারিয়েবল ছিল মাত্র একটি (পিৎজার সাইজ) যাকে 
আমরা শুধু « দিয়ে প্রকাশ করতাম এবং সেটি ব্যবহার করে আমরা পিৎজার দাম আন্দাজ 
করতাম। 

এখন আমি যদি আরেকটি উদাহরণ নিই, যেখানে আমাদের একাধিক ফিচার আছে। যেরকম, 
আমরা যদি টেবিল 3.5.1 দেখি যেখানে কতগুলো ফোনের দাম দেওয়া আছে এবং সঙ্গে তার কিছু 
ফিচারের মান লেখা আছে র্যোম, রম ইত্যাদি)। 


৫৯ 


এই টেবিল থেকে আমরা দেখতে পাচ্ছি, আমাদের ফিচারের সংখ্যা 4টি _ র্যাম, রম, ক্যামেরা 
এবং ডিসপ্লে সাইজ। আর দাম হচ্ছে আমাদের আউটপুট। ফিচারগুলোকে আমরা এখন 54, %, 
£ ও 54 দিয়ে প্রকাশ করতে পারি। এদের জন্য $/০18 হবে তাহলে যথাক্রমে 0/।, //2,0/3 ও 
/41 
এখন আমরা যদি এই একাধিক ফিচার ব্যবহার করে লিনিয়ার রিগ্রেশন করে দাম জানা নেই, 
এরকম কোনো মোবাইলের ফিচারের মানগুলো আগের মতোই হাইপোথিসিসে বসিয়ে সেই 
মোবাইলের দাম বের করি, তাহলে সেই লিনিয়ার রিগ্রেশনকে বলা হবে মাল্টিভ্যারিয়েট 
(401081196) লিনিয়ার রিগ্রেশন। 
এখন তাহলে মাল্টিভ্যারিয়েট লিনিয়ার রিগ্রেশনের হাইপোথিসিস সমীকরণটি লিখে ফেলা যাক। 
এটি আমাদের আগের ইউনিভ্যারিয়েট লিনিয়ার রিগ্রেশনের সমীকরণের সঙ্গে অনেকখানিই 
সামঞ্জস্যপূর্ণ : 

12৮4) ৮10 49190 10722210353 11424 
এখন আমরা যদি 2 _ 1 ধরি, তাহলে আমরা আমাদের সমীকরণ দাঁড়ায়, 

10509) »0/0%০ + 97222. 10022 40032270144 


একে জেনারালাইজ করে 7-সংখ্যক ফিচারের জন্য লিখলে পাই, 


1/0০) ৯/0%0 10012441222 +0/353 4৮4 //20 


//0 
// 


আমরা এখন 7৮ নামে একটি ওয়েইট ভেষ্টর (618): /8০101) চিন্তা করি, যেখানে ৮/ _ 1%% 


11 


অধ্যায় ৩: লিনিয়ার রিগ্রেশন (0107691"1001055101)) 
40 
শত 


এবং % নামে আরেকটি ফিচার ভেক্টর 0760076 0001) চিন্তা করি, যেখানে & _ [52 
77. 
৮/০171%0 
9/11 14 
এখন যদি আমরা //7% নিই, তাহলে আমরা পাই, //7% _ |/2| 122 
/% ৫ 


এখানে উল্লেখ্য, যে-কোনো ম্যাট্রিক্স 4-এর ট্রান্পোজ করলে ওই ম্যাট্রিক্স-এর রো 0২০/)-গুলো 
কলাম (0010111) এবং কলামগুলো রো-তে রূপান্তরিত হয়ে যায় এবং একে 47 দিয়ে প্রকাশ 
করা হয়। 


1017 [50 
1] 1%1 
সুতরাং, //7% _ 12] 1%2 
117 7 
50 
7৫ 


[00 91092. 0৮7] 12 
্ 
09020 +1//120. +9/222 40935 +-*+ ৮৮127 (ম্যাট্রিক্স গুণনের নিয়ম 
অনুসারে) 
সুতরাং আমরা এখন লিখতে পারি যে, 
17 (৯) ৯» 72 
এটিই আমাদের মাল্টিভ্যারিয়েট লিনিয়ার রিগ্রেশনের হাইপোথিসিস। 
আমাদের কস্ট ফাংশন এবং অবজেকটিভ ফাংশন আগের মতোই থাকবে। 
কম্ট ফাংশনে সামান্য পরিবর্তন যেটি আসবে যে আমরা এখন ৮ পর্যন্ত লিখব 


]0/0, 11) 02, 517) লি গু নি (7 ৫9) পি ০) 


৬১ 


. শ 


মেশিন লার্নিং আলগরিদম 


আর, 0৮)200৮9171006107; লন 17217170126 1 (090, 001, 1//2,.০ 007) 
/০1(74--03 
0,101) 0/25- 10978 


হক্হ 1 1 হ 
_. 01071771627 171 6০ 
9/0,1/1, 0৮2,000 


তাহলে এখন আগের মতোই গ্রেডিয়েন্ট ডিসেন্ট আযালগরিদম দিয়ে প্যারামিটার আপডেটের 
মাধ্যমে মাল্টিভ্যারিয়েট লিনিয়ার রিগ্রেশন চালাই, তাহলে আমাদের কাজের ধাপগুলো দীঁড়াচ্ছে_ 


*. প্রথমে //0, 1, 0/2,..১১ 9/% প্রত্যেককে র্যানডম মান আযাসাইন করি (আপনারা আগের 
মতোই সবগুলোর মান ! দিয়ে শুরু করতে পারেন) 

*. এরপর 9/০, //1, ৮/2,..., ৮/%-এর মান প্রতি ইটারেশনে একবার করে আপডেট করতে 
হবে এমনভাবে, যাতে ] (০, ৮1, ৮/,..., //7)-এর মান কমে আসতে থাকে। 

* আগের মতোই একটি সময় গিয়ে দেখা যাবে 5-10 ইটারেশনের পরেও 
) 0%0, 92, ৮/2,..., //।)-এর মান আর উল্লেখযোগ্য হারে কমছে না। তখন আপনি 
আপনার লুপ চালানো শেষ করে দিতে পারেন। 

* লুপ শেষ হয়ে গেলে আপনি 70, ৮/, //2,..., //-এর যে মানগুলো পেলেন, এটিই 
এদের অপটিমাল মান, যার জন্য আপনি /(/০, //1, ৮/2,..., //%)-এর মান সর্বনিয়্ 
পাচ্ছেন। 

* এখন 9৮০, ৮/, 9/2,..., %। এদের মান হাইপোথিসিস //,(%) _ ৮/72-এ বসালেই 


আপনি আপনার কাজিক্ষিত হাইপোথিসিস পেয়ে যাবেন। এখন এতে কোনো অজানা £ ₹ 
50 
5 


্ এর মান বসালেই আমরা তার জন্য কাজিক্ষত আউটপুট কী হবে তা পেয়ে যাব। 


বশেষে যেটি বাকি থাকে, সেটি হচ্ছে আমরা 1%০, ৮৮1, 7/,..., 1/%% এই প্যারামিটারগুলোর মান 
আপডেট কীভাবে করব? আমরা সেই আগের আ্যালগরিদমই অনুসরণ করব - 
1 - ৮/- এন] (৮/০, ৮/1) 0/2, ০.১ 007) 


521 


ন্‌ দেরকে 7:70, //1, 12, । 8) মান সেই আগের নিয়মেই বের করতে হবে। এর জন্য 
একটি সাধারণ সূত্র আছে - 


9 1 
57/0%0, 9, 0/2,,7, 0) _ ঢা 2015 (7৮৮(0৮০)) _ 09)].50 0) 


৬২ 


অধ্যায় ৩ :লিনিয়ার রিগ্রেশন (1,762 [২6£655107) 


এখানে % দ্বারা বোঝায় ট্রেনিং ডেটার /-তম ফিচার। সুতরাং 2) দ্বারা বোঝানো হচ্ছে (-তম 
ট্রেনিং ডেটার )-তম ফিচার। আরো ভেঙে বলি, টেবিল 3.5.1 থেকে দেখুন, এখানে 2) মানে 
হচ্ছে টেবিলের গ্রথম রো, যেটি প্রথম ট্রেনিং ডেটা নির্দেশ করছে। একইভাবে +৩) মানে টেবিলের 


দ্বিতীয় রো, যেটি দ্বিতীয় ট্রেনিং ডেটা নির্দেশ করছে। 


আর %। ৫) মানে হচ্ছে টেবিলের প্রথম ট্রেনিং ডেটার প্রথম ফিচারের মান, অর্থাৎ প্রথম রো-এর 
গ্রথম কলাম-এর মান অর্থাৎ । একইভাবে %2(2) মানে হচ্ছে দ্বিতীয় ট্রেনিং ডেটার দ্বিতীয় ফিচারের 


ভ্যালু অর্থাৎ দ্বিতীয় রো-এর দ্বিতীয় কলাম-এর ভ্যালু অর্থাৎ 321 
এখন দেখুন, ) ₹ 0 এর জন্য, 

75/0% 11) //2,..., 107) লন ভা । (00+(0)) -)0)).40 0) 
আমরা হাইপোথিসিস দাঁড় করানোর সময় প্রথমেই ধরে নিয়েছিলাম, ০ ₹ ! 
সুতরাং, 

75/0%, //1) 0/2)...১ 198) ₹ নর চাদ) (8(৩0)) -১0)].1 
অর্থাৎ, / _ 0-এর জন্য 
77/0% 5০০98) _ ৮ 2) (0৮(৮০) 7৮০) 
আর বাকি সব) _ 1, 2, 3, ...,7-এর জনা, 


9 রর 
70/0০/৮০৮8) »দ 2111 (7১০১) -১৫)).৮ ৫) 


অর্থাৎ, ) _ 1-এর জন্য, 
9 
7/0%০। ৮৯, ৮5০০, /%) দি 2 0০০০) ১০) 9 
আবার / ₹ 2-এর জন্য 
9 রি রা 
77/0%0, 01, 102,৮৮৮ 00) 5 নর 271 (15009) 790১). 0 


আবে নানা যতগুলো ফিচার নেব, প্রতিটির সাপেক্ষে একবার করে / 0/0, 1, ৮/2,..., 0) 
কে আমাদের পার্শিয়াল ডিফারেন্সিয়েশন করতে হবে এবং সেই অনুযায়ী প্যারামিটার আপডেট 
করতে হবে। 


মেশিন লার্নিং আআলগরিদম 
তাহলে এই হছে ডিন ডিস জযলগরিদম ব্যবহার করে কীভাবে আমরা মাটি 


গিনিযার রিঞেশন করতে গারি তার বিবরণ। 


পরিচ্ছেদ ৩.৬: ভেষ্টর আযলজেবরা (6০০০7 /1891019) ব্যবহার করে লিনিয়ার 


রিগেশন 


নেই। এটি বরং আমাদের প্রথম ব্যবহত 
সরাসরি পদ্ধতি, যেখানে লিনিয়ার আআলজেবরা ব্যবহত হয়েছে। পরিচ্ছেদ ৩.২-এ ব্যবহ্ 
সরাসরি পদ্ধতির সঙ্গে এই পদ্ধতির পার্ণক্য হচ্ছে, পরিচ্ছেদ ৩.২-এর পদ্ধতিটি ব্যবহার করা যায 
শুধু ইউনিস্যারি়েট লনয়ার রিগ্রেশনের ক্ষেত্রে, কারণ সেখানে শুধু একটি ফিচার বা ত্যারিযেব 
নিয়ে কাজ বরা হয। কিনতু ভেষটর আযলজেবরা ব্যবহার করে আমরা একাধিক ফিচারের জন্য অর্া 
মাল্টভ্যারিয়েট লিনিয়ার রিগ্রেশন-এর জন্য সরাসরি গাণিতিক পদ্ধতি ব্যবহার করে আমাদের সব 
প্যারামিটারের মান একেবারে বের করতে পারব। 

আমরা আগের পরিচ্ছেদে ইতিমধ্যেই দেখেছি, মাল্টিভ্যারিয়েট লিনিয়ার রিগ্রেশনের ক্ষেত্রে 


আমাদের হাইপোথিসিস ছিল, 
109) _ ৮/% 
এবং আমাদের কস্ট ফাংশন ছিল, 
/0%, %/1, 2, 87) 5 রর চে (৮,0৮০) -১০), 


এখন আমরা যদি আমাদের সব ট্রেনিং ডেটাকে একটি ম্যাট্রিক্সের 
একটি করে ট্রেনিং ডেটা আর প্রতিটি কলাম হচ্ছে ৮৪ 


77 ৮ (741) ডাইমেনশনের 
ফিচারের সংখ্যা ॥, একটি মারিস, যেখানে মোট ট্রেনিং ডেটার সংখ্যা 7, মোট 


1:90) 3201) 350) 0) 
150) 222) ৯০0) 7 রর 
4711 0) 580) 10) ৮ 2 | 
৫ 23) 

টি ১9 ্ 

1 ০ ১4 . দ। % চ্ছ 
51 7207) 8307) ২৮) 


অধ্যায় ৩ : লিনিয়ার রিগ্রেশন 010691 8£6551017) 
সেই সঙ্গে, যদি আমরা আরো একটি ম্যাট্রিক্স নিই, যেটি হবে একটি কলাম ম্যাট্রিক্স এবং তাতে 
7-সংখ্যক সারি থাকবে, যা আমাদের 7-সংখ্যক ট্রেনিং ডেটার প্রতিটির আউটপুটের আসল 
মানগুলো ধারণ করবে, তাহলে ম্যান্রিক্সটি হবে 7 * 1 ডাইমেনশনের একটি ম্যাট্রিক, 


7৫) 
70) 


৮» 1১৫) 
০) 

সবশেষে, আমাদের 7-সংখ্যক ফিচারের জন্য সমস্ত ওয়েইট (০, ৮/:, ৮৮2, ..., ৮%) নিয়ে একটি 

ওয়েইট ভেক্টর যদি চিন্তা করি, সেটি হবে (0৮4 1) * 1 ডাইমেনশনের একটি ম্যান্রিক্স, 
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এখন আমরা সরাসরি নিচের সূত্র প্রয়োগ করে প্রতিটি ওয়েইট (৮০, ৮/1, //2,..., /%)-এর 
অপটিমাল মান একবারেই পেয়ে যেতে পারি, 


// ল (৮79)-17) 
এখান থেকে ৮৮-এর মান পেয়ে গেলে সেটি আমাদের হাইপোথিসিস 1, ০০) _ //7%-এ বসিয়ে 


দিলেই আমরা পেয়ে যাব আমাদের কাজিক্িত হাইপোথিসিসের সর্বশেষ সমীকরণ। এটিই হচ্ছে 
ভেক্টর আযালজেবরা ব্যবহার করে এক বা একাধিক ফিচারের জন্য লিনিয়ার রিগ্রেশন করার পদ্ধতি। 


এখন প্রশ্ন হচ্ছে কখন আমরা গ্রেডিয়েন্ট ডিসেন্ট ব্যবহার করব, আর কখন আমরা ভেক্টর 
আযালজেবরা ব্যবহার করব? এর উত্তর হচ্ছে, যদি ফিচার সংখ্যা 7 € 10,000 হয়, তাহলে আমরা 
ভেক্টর আযালজেবরা ব্যবহার করতে পারি, কেননা এতে কোনো লুপ বা ইটারেশন নেই এবং কোনো 
৫ বেছে নেওয়ার ব্যাপার নেই। তাই খুব দ্রুতই আমরা সমাধানে পৌঁছে যেতে পারি। 


শুধু % এ 10,000-এর জন্যই কেন আমরা এটি ব্যবহার করতে পারি, এর পেছনে একটি কারণ 
হচ্ছে, //-এর সমীকরণটির দিকে তাকালে বুঝবেন, এখানে তিনটি ম্যান্রিক্স মাল্টিপ্রিকেশন 
04501 11010108007) অপারেশন করা হয়েছে এবং একটি ম্যান্রিক্স ইনভার্শন 08013 
175515107) অপারেশন করা হয়েছে। ধরে নিচ্ছি, সবাই-ই ম্যাট্রিক্স গুণন কীভাবে করতে হয় 
জানেন। আমি এখানে শুধু একটি 2 » 2 ম্যাট্রক্স ইনভার্শনের সূত্রটি দিচ্ছি। 


মেশিন লার্নিং আযালগরিদম 
ধ/-[ & 


রঃ 1 ৫ -% 
তাহলে, পরও 
০০৪০ কপার যা 
আশা করি দেখেই বুঝতে পারছেন, এটি বেশ জবরজং একটি পদ্ধতি এবং যদি আমাদের ॥-এর় 
মান অনেক বড়ো হয় (10,000-এর চেয়েও বড়ো, ধরি 11,000) তাহলে আমাদের _ 


১ হবে 11,000 ৯ 11,000 এই ডাইমেনশনের একটি ম্যান্রিক্স। 
%7-ও হবে 11,000 ৮ 11,000 এই ডাইমেনশনের একটি ম্যাট্রিক । 


এখন এত বড়ো ডাইমেনশনের দুটি ম্যাট্রিক্সের গুণফল অবশ্যই 0০11041911078]) 
87)81519 হবে। এখানেই শেষ নয়। এই গুণফল /%7/-এর ইনভার্স নিতে হবে, যেটি ম্যাট্রিক 

গুণফলের চেয়েও অনেক বেশি 00111)0109001911 [37190751$9। সবশেষে, এই গুণফলের সঙ্গে 

আবার %? গুণ করে তার সঙ্গে £ ম্যাট্রিক্সটি গুণ করলে আমরা সর্বশেষ ফলাফল পাব। এত বাড়ো 
0017)08001. কম্পিউটারের পক্ষে করা অনেক সময়সাপেক্ষ একটি ব্যাপার, তাই 7%€ 
10,000 পর্যন্ত আমরা এই ভেক্টর আযালজেবরা মেথড ব্যবহার করব। 


কিন্তু যদি ফিচার সংখ্যা % ৯ 10,000 হয়, তাহলে গ্রেডিয়েন্ট ডিসেন্ট ব্যবহার করতে হবে। 
কেননা, গ্রেডিয়েন্ট ডিসেন্ট ফিচার সংখ্যা ঢ-এর মান অনেক বড়ো হলেও ভালোভাবেই সমাধানে 
পৌঁছুতে পারে, যদিও এতে ইটারেশন অপারেশন আছে এবং সঠিকভাবে ৫ বেছে নেওয়ার ব্যাপার 
আছে, যার কারণে এটি প্রায়ই ভেক্টর আযালজেবরা মেথডের চেয়ে অনেক বেশি সময় ধরে চলে। 


তাহলে এই হলো ভেক্টর আালজেবরা ব্যবহার করে কীভাবে আমরা লিনিয়ার রিগ্রেশন করতে পারি 
তার বিস্তারিত বর্ণনা। 


পরিচ্ছেদ ৩.৭ : বায়াস (9193), ভ্যারিয়েন্স (11909) ও রেগুলারাইজেশন 
(95001971900) 


পরবর্তী সময়ে আরো কতগুলো ধারণা আমাদের প্রয়োজন হবে। সেগুলো আমি এখানেই 
আলোচনা করছি। 


প্রথমেই আমরা বুঝে নিই ওভারফিটিং (0৮17010) ও আন্ডারফিটিং (00710677008) কী। 
নাম শুনেই বোঝা যাচ্ছে যে, ওভারফিটিং মানে হচ্ছে বেশি হস্কিতম্বি করে বেশি বেশি ফিট হয়ে 
গেছে, আবার আন্ডারফিটিং মানে হচ্ছে একেবারেই ফিট হয় নাই। 


৬৬ 


অধ্যায় ৩ : লিনিয়ার রিগ্রেশন (01762117২9£7555107) 
আপনি বিষয়টিকে এভাবে চিন্তা করতে পারেন _ ধরে নিন আপনি একটি শার্ট কিনেছেন। সেই 
শার্ট ওভারফিটিং হওয়া মানে হচ্ছে সেটি গায়ের সঙ্গে, শরীরের প্রতিটি ভাঁজের সঙ্গে একেবারে 
আঁটোসাঁটোভাবে লেগে আছে। আপনি যদি, সামান্য একটু মোটা হয়ে যান, সেই শার্ট আর আপনার 
গায়ে খাটবে না। একইভাবে আন্ডারফিটিং মানে হচ্ছে, আপনি এমন একটি শার্ট কিনেছেন যেটি 
আপনার গায়ে একেবারেই ফিটিং হয়নি, একদম ঢোলাঢালা হয়ে আছে। 


নিচের গ্রাফটি দেখুন গ্রোফ 3.7.1)। এই গ্রাফটিতে, আমরা যে সরলরেখা হাইপোথিসিস হিসেবে 
নিয়েছি, সেটি আমাদের ট্রেনিং ডেটায় একেবারেই ফিট করছে না, প্রচুর এরর বা কস্ট আছে। এই 
ধরনের ক্ষেত্রে বলা হয় যে, আমাদের হাইপোথিসিস আন্ডারফিট হয়েছে, অর্থাৎ একেবারেই ফিটিং 
হয়নি। ডেটা আছে একরকম, আর হাইপোথিসিস হয়েছে অন্যরকম। 


গ্রাফ 3.7.1 


এই ধরনের আন্ডারফিট হাইপোথিসিসের ক্ষেত্রে বলা হয় যে এদের হাই বায়াস (71 8199) 
আছে, অর্থাৎ, হাইপোথিসিসগুলো আগে থেকেই ধারণা করে নিয়েছে যে ডেটা কীরকম হবে 
(আমাদের এই ক্ষেত্রে সরলরৈখিক) এবং সেই ধারণা ট্রেনিং ডেটা পর্যবেক্ষণ করার পরেও 
পরিবর্তিত হবে না। হাইপোথিসিস তাঁর নিজের ধারণার প্রতিই পক্ষপাতী থাকে। এটি অনেকটা 
জেদ করে গোঁ ধরে বসে থাকা ছোটো বাচ্চাদের মতো, যতই বোঝানো হোক ট্রেনিং দেওয়া হোক) 
সে কথা শুনবে না (নিজের আকৃতি বদলাবে না)। 


একইভাবে, ওভারফিটিং বলতে বোঝায় যে, আমাদের হাইপোথিসিস খুবই জটিল, প্যাঁচানো একটি 
হাইপোথিসিস এবং সেটি শুধু ট্রেনিং ডেটাতেই খুব ভালোভাবে ফিট করে। ট্রেনিং ডেটার বাইরে 


৬৭ 


সব 


মেশিন লার্নিং আালগরিদম 


যখন অন্য নতুন কোনো ডেটা আসে, সেই ডেটাকে আমাদের এই হাইপোথিসিস 


পারবে না। ব্যাপারটি বোঝার জন্য নিচের গ্রাফ দেখুন গ্রোফ 3.7.2)। ফিট করা 


গ্রাফ 3.7.2 


গ্রাফে হাইপোথিসিসের যেই কার্ভ আঁকা হয়েছে, তার সমীকরণ ধরা যাক এরকম - 
100) ল //০ 11001201102 41093201204 1/3542 4110/4223 


এখন দেখুন, কী বিদঘুটে একটি হাই-অর্ডার পলিনোমিয়াল হাইপোথিসিস প্রেধান চলক £-এর 
সর্বোচ্চ ঘাত/পাওয়ার 1-এর বেশি), তাই না? এত কঠিন, ঘোরানো-প্যাঁচানো হাইপোথিসিস কেন 
ব্যবহার করা হয়েছে - শুধু যেন তা আমাদের ট্রেনিং ডেটাকে ঠিকভাবে ফিট করে, একটি ট্রেনিং 
পয়েন্টও যেন বাদ না যায়, অর্থাৎ, ট্রেনিং ডেটার সাপেক্ষে হাইপোথিসিসের কন্ট যেন শূন্য হয়। 


এই ধরনের হাইপোথিসিস ট্রেনিং ডেটাতে খুব ভালোভাবে ফিট করবে অবশ্যই, কিন্তু সমস্যা হব 
যখন ট্রেনিং ডেটার বাইরে অন্য কোনো ডেটা আসবে। তখন আর আমাদের এই প্রাচানো 
হাইপোখিসিস ভালোভাবে কাজ করবে না। এই ধরনের হাইপোথিসিস আসলে ট্রেনিং ডেটাতে 
এত ভালোভাবে ওভারফিট করে যে, এর বাইরে অন্য কোনো ডেটার জন্য সে নিজেকে 
জেনারালাইজ করতে পারে না আর; একেই বলে ওভারফিটিং। বলা হয় যে, 0%709৫ 
হাইপোিসিসের 118) /৪15106 থাকে। একটি হাইপোথিসিস দ্বারা ডিফাইন করা মেন 


২৬ তিত শি 
ইরানি হয়, তত তার 17181 /187০6 থাকে এবং তত তার 0৮০:690 হওয়ার 


৬৮ 


অধ্যায় ৩ :লিনিয়ার রিগ্রেশন (0১17797 [২9£695107) 
0185-/971570 156০% বলে একটি টার্ম আছে, যেটি আপনারা কোথাও কোথাও হয়তো 
দেখবেন। আমাদের লক্ষ্য সব সময় থাকে আমরা 1,0৬/ 8195, [,0৬/ ড71191)0৪- এরকম কোনো 
একটি মডেল দাঁড় করাব। কিন্তু, বেশিরভাগ সময়েই আমরা এমন মডেল দাঁড় করাই, যেটাতে 
11120) ড91191709, 17181) 8195 কিংবা, ন15]) ড01181006,1,0%% 8183 অথবা 1,০0৬ ৬৭1091700, 


[11 9195 থাকে। 


[,0৮/ $71715706 17181) /31091005 


উিষ্ 


ছবি 3.7.1 


ওপরের ছবিটি ছেবি 3.7.1) দেখলে হয়তো আপনাদের আরেকটু পরিক্ষার ধারণা হবে ব্যাপারটা 
সম্পর্কে। অনেকেই হয়তো ডার্ট ছোড়ার খেলাটা খেলেছেন। আপনাদের হাতে কতগুলো ডার্ট 
থাকে, সেটি দিয়ে মাঝখানের ওই লাল বৃত্তটির মধ্যে ছুড়ে বিধাতে হয়। আমাদের এই ছবি 3.7.1- 
এ চারটি কেস দেওয়া আছে দেখবেন। 


আমাদের লক্ষ্য থাকে সব সময় [,0%/ 8185 (০০8180), [,0৬/ ড৭1191709 (00175150170) 
পাওয়া, অর্থাৎ আমি যে ডার্ট ছুড়ব সেটি যেন মাঝখানের ওই লাল ছোটো বৃত্তে বেঁধে 
(9০০07805) এবং আমি যদি পরপর 10টি ডার্ট ছুড়ি, তাহলে 10টিই যেন লাল বৃত্তে গিয়ে বেঁধে 
(09751509709)। কিন্তু বেশিরভাগ সময়েই আমাদের হয়তো এটি ৪০)16%9 করা সম্ভব হয় না, 
প্রায় অসম্ভবই বলা চলে ব্যাপারটা । হয়তো, ০০৪৪০ ভালো হলে মডেল 11700751581 হয়, 
আবার 09751508770 থাকলেও মডেল ০০৮৪৪ হয় না। আবার কখনো কখনো কোনোটাই 
থাকে না। 


1,0৬/ 3195 


1161) 8155 


এর কারণ হচ্ছে, সহজ করে বললে, একটি মডেলের 1,0৬৮ /448706 থাকা মানে মডেলটা 1,655 
6010019%। সুতরাং আমাদেরকে 1,0%/ 21181709 যদি ৪০71৪ করতে হয়, তাহলে 1,995 


৬৯ 
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(0111)10২ কোনো একটি মডেল দিয়ে কাজ করতে হবে। আবার যদি আমরা 1,0%/ 8155 চাই, 
তাহলে আমাদেরকে 1118)1) 00111)10% মডেল ব্যবহার করতে হবে। এখন দেখুন, আমরা যদি 
দুটোই একসঙ্গে অর্জন করতে চাই, তাহলে আমাদের এমন একটি মডেল বেছে নিতে হবে, যেটি 
একই সঙ্গে 11101) 00101019) আবার খুবই 1,0%/ 0070019%, যেটি কখনোই সম্ভব নয়, তই 
না? তাই আসলে আমাদেরকে মাঝামাঝি কোনো একটি পয়েন্ট খুঁজে বের করতে ত হয়, এটাই ৪183. 
ড9118110017-709011 

0৬০88 প্রধানত হয় যখন ফিচার ডেটার সংখ্যা আমাদের ট্রেনিং ডেটার চেয়ে অনেক বেশি 
হয়ে যাবে তখন (ডেটটাসেটের টেবিলে কলামের সংখ্যা, সারির সংখ্যার চেয়ে বেশি হয়)। এর 
কমানোর দুটো উপায় আছে -ফিচারের সংখ্যা কমিয়ে নিয়ে আসা অথবা রেগুলারাইজেশন করা। 
ফিচারের সংখ্যা আসলে সব ক্ষেত্রে কমানো যায় না, কারণ দেখা যায় সবগুলো ফিচারই কোনো- 
না-কোনোভাবে আমাদের ক্লাসিফিকেশন কিংবা রিগ্রেশনে সাহায্য করছে। সুতরাং, একটি ফিচার 
ভ্যালু কমিয়ে ফেলা মানে আসলে আমাদের গোটা ডেটাসেটের একটি বিশাল পরিমাণ বাদ দিয়ে 
দেওয়া, যেটি আসলে আমাদের পরবর্তী সময়ে ভালো একিউরেসি পাওয়ার অন্তরক হতে পারে। 
তাই, সবগুলো ফিচারই রেখে তাদের ৮/618).-গুলো রেগুলারাইজ করে নেওয়াটাই বেশিরভাগ 
ক্ষেত্রে উত্তম পন্থা। 


এতক্ষণ আমরা দেখলাম 0৮9170006 (07161) $৭1190106) ও [01106700005 (7151) 9195) 
বলতে আসলে কী বোঝায়। এখন আসি রেগুলারাইজেশনে। 


রেগুলারাইজেশন মানে হচ্ছে সোজা বাংলায় হচ্ছে কোনো কিছুর গুরুত্বকে বা প্রভাবকে অন্য 
কোনো প্রভাবকের সাহায্যে কমানো-বাড়ানো। একে ফ্যানের রেগুলেটরের সঙ্গে তুলনা করা যেতে 
পারে। আমরা যখন ফ্যানের স্পিড কমানোর চেষ্টা করি, তখন আমরা কী করি? আমরা কি ফ্যানের 
পাখা ধরে ঝুলে পড়ি স্পিড কমানোর জন্য? কিংবা যদি আমরা ফ্যানের স্পিড বাড়াতে চাই তাহলে 
কী করি? ফ্যানের পাখা ধরে বাই বাই করে ঘোরানো শুরু করি কি? মোটেও না? আমরা ব্যবহার 
করি রেগুলেটর নামে ছোট্ট একটি যন্ত্র, যেটি ঘুরিয়ে ঘুরিয়ে আমরা ফ্যানের স্পিড কমাই-বাড়াই। 


রেগুলারাইজেশন ভালো কাজ করে সেইসব ক্ষেত্রে, যখন আমাদের বেশ অনেকসংখ্যক ফিচার 
ডেটা আছে এবং কোনো ফিচার ডেটাই আমাদের বাদ দেওয়ার উপায় নেই, সেই সব ক্ষেত্রে প্রতিটি 
ফিচারের সঙ্গে /950019090 থেকে ড/০181-গুলোকে পরিবর্তিত করে এইসব ফিচার ভ্য লুগুলোর 
গুরুত্ব কমানো-বাড়ানো যায়। 
যেরকম, একটি উদাহরণ দিই। ধরা যাক, নিচের সমীকরণটি _ 

4.8 51 


অধ্যায় ৩: লিনিয়ার রিগেশন (01091 101008510)0) 
এই সমীকরণে, যদি, ॥, ও ) দুটিকেই 1 ধরে নিই, তাহলে সমীকরণের উভয় পঞ্ষ সমান থাকে। 
এখন যদি আমি চাই, আমি এই সমীকরণে 1)-এর প্রভাব কমাব, তাহলে কী করব? 


একটু খেয়াল করে দেখুন, আমরা যদি আস্তে আস্তে /-এর মান বাড়াতে থাকি 1 থেকে 10, 100, 
1000,10000, 100000 এভাবে, তাহলে সমীকরণের উভয় পাশ সমান রাখার জন্য 1)-এর মান 
কিন্তু কমতে থাকবে 1 থেকে 0.1, 0.01, 0.001, 0.0001, 0.00001 এইভাবে । এই ঘটনাটি 
রেগুলারাইজেশন বোঝার জন্য একটি সাধারণ উদাহরণ। এটি দেওয়া হলো শুধু ব্যাপারটি সম্পর্কে 
একটু ধারণা পাওয়ার জন্য। আরেকটি জিনিস, যেহেতু 1)-কে কমানো-বাড়ানো আমরা /১-এর মান 
বাড়ানো-কমানোর মাধ্যমে করছি, তাই /.কে বলা হয় 1২6%01911796101) 1১419106061 

আমরা রেগুলারাইজেশন মূলত ব্যবহার করি ওভারফিটিং কমানোর জন্য। আর ওভারফিটিং মূলত 
হয় যদি আমাদের মডেল খুব বেশি কমপ্লেক্স হয়, তাই না? আমরা মোটামুটি দুই ধরনের 
রেগুলারাইজেশনের সম্পর্কে জানব _ একটি হচ্ছে 1.1 1২০80151149007, আরেকটি হচ্ছে 1,2 
1২০2019112900)। এদের আবার যথাক্রমে 1/530 13876955101 ও 31001 [92155510177-ও 
বলা হয়। কেন বলা হয়, এগুলো আপাতত আমাদের বইয়ের এখতিয়ারের বাইরে, এগুলো আরো 
কিছুটা আ্যাডভান্সড ধারণা। 

এ দুটোর ধারণা বেশ জটিল, সেজন্য 9991:50 14801%, 52151 এবং আরো কিছু ধারণা জানা 
প্রয়োজন যেটি আসলে আপাতত এই হাতেখড়ির সময়ে না জানলেও চলবে বলে আমি মনে করি। 
সুতরাং আপাতত সেগুলো বাদ রাখছি। আমাদের শুধু আপাতত এতটুকু জানলেই চলবে যে, যে- 
কোনো ধরনের রেগুলারাইজেশনের ক্ষেত্রেই আমরা আমাদের ড/1£1€ /৪০০7-এর মানগুলোকে 
কমিয়ে আনার চেষ্টা করি যতটুকু পারা যায়। এর একটি গালভরা নাম আছে _ 76779112178 076 
9612) ৬5000151 


1.1 1.90018112909)-এর ক্ষেত্রে আমরা যেটি রেগুলারাইজেশনের জন্য ব্যবহার করি, তা হলো _ 
4 
77 2/-11%)1 
আর 12 13671191129110))-এর ক্ষেত্রে আমরা যেটি ব্যবহার করি সেটি হলো _ 
4. 
227৮ %/2 


উভয় ক্ষেত্রেই ॥ হচ্ছে রেগুলারাইজেশন প্যারামিটার, যেটি কিনা $/81): /০০০” কমানোর সঙ্গে 
সমানুপাতিক। 4-এর মান যত হবে, যে-কোনো মডেলের তত বেশি কমঞ্নেক্জ থেকে সহজ হবার 
প্রবণতা বাড়বে। 4-এর মান শুন্য হলে কোনে রেগুলারাইজেখন হবে না। 
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একটি ছোটো উদাহরণ দিই। একটু আগেই আমরা ওভারফিটিং পড়ার সময় একটি বিচি 
প্যাচানো ও জটিল হাইপোথিসিস দেখলাম, যেটি ছিল এরকম _ 

15 &) _ ৮/0 71015 111/2202 70/32142 7৮/3%1 
এখন, দেখে কিছুটা হয়তো আপনারা আইডিয়া করতে পারছেন, যে. এই হাইপোথিসিগে 
ওভারফিটিং হওয়ার সম্ভাবনা বেশ ভালো। 
এখন, যদি আমরা ওভারফিটিং থেকে বাঁচতে চাই, তাহলে আমাদের একমাত্র রস 
রেগুলারাইজেশন। 
যেহেতু আমরা লিনিয়ার রিগ্রেশন করছি, এর জন্য কন্ট ফাংশন কীরকম হবে সেটি আমরা আগেই 
দেখেছি_ | 

2ম (লখেছ)-5%1 
এখন, রেগুলারাইজেশন করা জন্য আমরা যেটি করব যে, আমাদের কস্ট ফাংশনের সঙ্গে একটি 
রেগুলাইজেশন টার্ম যুক্ত করে দেব ঠিক এভাবে _ 

2 0৮০)-50)+ হ52-%+ 
এখন আমরা জানি যে, আমাদের অবজেকটিভ ফাংশন হচ্ছে এই কস্ট ফাংশনটিকে [1017016 
করা। লক্ষ করুন,আমাদের ওপরের কস্ট ফাংশনটিতে দুটি টার্ম আছে, একটি সাধারণ 508181790 
8707টার্ম, আরেকট হচ্ছে রেগুলারাইজেশন টার্ম। 
এখন, একটু ভালোমতো চিন্তা করে দেখুন তো, যেহেতু আমাদের লক্ষ্য হচ্ছে কস্ট ফাংশন 
মিনিমাইজ করা এবং আমাদের প্রথম টার্ম সাধারণভাবেই মিনিমাইজ হচ্ছে আগের মতোই, 
সেটাতে কোনো সমস্যা নেই; কিন্তু যদি আমরা রেগুলারাইজেশন টার্মে ?-এর বেশ বড়োসড়ো 
একটি মান দিয়ে দিই ধেরা যাক, ॥ _ 1000), তাহলে, সেই বড়ো মানের প্রভাব কমানোর জন্য 
(যেহেতু আমরা মিনিমাইজ করছি) চ:-1 %/-এর মানকে খুব ছোটো মানের দিকে (পরায় শৃনোর 
অর্থাৎ 4-এর বড়ো মানের প্রভাব কম্ট ফাংশনে কমিয়ে আনার জন্য আমাদের 0/618110 (০৫০ 
এর প্রতিটি //120 কি€বা [391917969।-কে একেবারে কমিয়ে শূন্যের কাছাকাছি চলে আসতে 
হবে। 
এটিই হচ্ছে রেগুলারাইজেশনের ধারণা এবং একটু চিন্তা করে দেখুন, আমাদের /018]0:%0:01. 
গুলোর মান যত ছোটো হতে থাকবে, তত আমাদের সেই বিচ্ছিরি হাইপোথিসিসটি এরক্ 


2:4014223 


৭২ 


অধ্যায় ৩ :লিনিয়ার রিগ্রেশন (72 [২9£.6591017) 
আঁকাবাঁকা কার্ভ আকার থেকে কিছুটা সুন্দর হয়ে গ্রাফ 3.7.3-এর মতো একটি আকার হয়তো 
(কাছাকাছি কিছু একটা) ধারণ করবে। 


গ্রাফ 3.7.3 


গ্রাফটা আগের মতো আঁকাবাঁকা থেকে এরকম সুন্দর 51100 হয়ে আসার মানে হচ্ছে আমাদের 
মডেলের ০০711919510 আগের চেয়ে অনেকাংশেই কমে এসেছে। অর্থাৎ, আমরা আমাদের 
মডেলে ওভারফিটিং হওয়ার সম্ভাবনা অনেকটাই কমিয়ে এনেছি। 


এখানে লক্ষণীয় যে, আমরা কিন্তু সরাসরি ৬9181 ৮৪০০.-গুলোর মান কমাইনি, বরং 9-এর মান 
এমনভাবে নিয়েছি, যাতে ৬/61৮ ৮৪০0-গুলো কমে আসতে বাধ্য হয়, অর্থাৎ একটির মান 
বাড়িয়ে আমরা আরেকটির মান কমিয়েছি, যেটি ছিল আমাদের রেগুলারাইজেশনের মূল ধারণা। 


এখানে আরেকটি ব্যাপার একটু খেয়াল রাখতে হবে, আমরা রেগুলারাইজেশন করার সময় 
রেগুলারাইজশন টার্ম হিসেবে ব্যবহার করছি_ 


4. 1 2 
হাহ 5:% 


এখন, একটু লক্ষ করবেন যে আমরা কিন্তু এখানে) - 1 থেকে ॥ পর্যন্ত /18..9০০০-এর মান 
নিয়েছি, একেবারে প্রথম যে %/618] ৮৪০০7 ছিল আমাদের %/০, তাকে কিন্তু আমরা রেগুলারাইজ 
করছিনা। 


৭৩ 


মেশিন লার্নিং আলগরিদম 
এখন, যদি আমরা 4-এর মান খুব বেশি বড়ো নিয়ে ফেলি, তাহলে, %/। থেকে 1॥-এর গর্ব 
সবগুলোর মান রেগুলারাইজ করে আমরা শূন্যের একদম কাছাকাছি নিয়ে এলেও ১/০-এর মান 
কিন্তু যা ছিল, তা-ই থেকে যাবে। 


1, 0৩ ল 010 1৮/120.111/230 410/320150 7-1/3202 7-1/4209 


তখন ওপরের এই হাইপোথিসিসের, ৮0 বাদে বাকি সবগুলো টার্ম শুন্যের কাছাকাছি চলে যাবে 
ফলে -1%, 0) ৯৮ হয়ে যাবে, যেটি মূলত একটি সরলরেখা। অনেকটা ) - 4, এই ধরনের 
য-অক্ষের সমান্তরাল কোনো একটি সরলেখার কথা বলছি আমি। এখন শুধু এরকম একটি 
সরলরেখা যদি আমাদের হাইপোথিসিস হয়, তাহলে নিশ্চিতভাবে সেটি আন্ডারফিটিং হয়ে যাবে, 
তাই না? 

তাই, আমাদের খেয়াল রাখতে হবে যে, 4-এর মান যেন খুব বেশি বড়ো না হয়ে যায়; আবার খুব 
বেশি ছোটোও না হয়ে যায়। 

আমরা মোটামুটি এই বইতে [,2 7২908181758001 নিয়েই কাজ করব, কেননা সেটির ওভারফিটি। 
এড়িয়ে যাওয়ার ক্ষমতা 1.1 901557007-এর চেয়ে বেশি। [96814112900 আমাদের 
আযালগরিদমে কীভাবে ব্যবহার করতে হবে, সেটি নিয়ে বিস্তারিত লেখা হবে পরিচ্ছেদ ৪.৪-এ৷ 
সেটি পড়লে আশা করি রেগুলারাইজেশনের ব্যবহার সম্পর্কে ধারণা পরিক্ষার হবে আরো। 


পরিচ্ছেদ ৩.৮: গ্রেডিয়েন্ট ডিসেন্ট পদ্ধতির সাহায্যে লিনিয়ার রিগ্রেশনের উদাহরণ 
আশা করি, ইতিমধ্যে আমাদের লিনিয়ার রিগ্রেশনের ওপরে বেশ ভালো একটি ধারণা হয়েছে৷ 


এখন, গ্রেডিয়েন্ট ডিসেন্ট ব্যবহার করে কীভাবে এই লিনিয়ার রিগ্রেশন করা যায়, সেটি একট 
দেখা যাক। 


% খ 
1 ] 
2 
4 3 
3 

5 5 


” অধ্যায় ৩ : লিনিয়ার রিগ্রেশন (7927 2€৪-555107) 
টেবিল 3.8.1-এ দেখুন আমাদের পাঁচটি ডেটা পয়েন্টের মান দেওয়া আছে। এটিই আমাদের 
লিনিয়ার রিগ্রেশনের জন্য ট্রেনিং ডেটা হবে। প্রথমে আমরা এই ট্রেনিং ডেটা দিয়ে আমাদের 
লিনিয়ার রিগ্রেশন মডেলকে ট্রেইন করব এবং সেটি করব গ্রেডিয়েন্ট ডিসেন্ট ব্যবহার করে। 


আমরা এই উদাহরণটি চেষ্টা করব একেবারে সহজ করে বুঝতে। যাঁদের এটি ধরতে সমস্যা হবে, 
তাঁরা আরেকবার পরিচ্ছেদ ৩.৩ ও ৩-৪ পড়ে নেবেন। 


প্রথমেই, আমাদের লিনিয়ার রিগ্রেশনের হাইপোথিসিস হবে, 
1৮% (5) ল /০ + ৮/1% 
আর এটি ছিল আমাদের কস্ট ফাংশন, যেটিকে আমাদের মিনিমাইজ করতে হবে, 
/0%০,%) _ 100০) ১০) 
এবং আমাদের প্রতিটি /০187: অর্থাৎ প্যারামিটার 0১917211667) আপডেট হবে এই সূত্র 


9 
9 - 0) _ 257/0%0,/1) 


// 79) 720. (৮0০) -5০) 
যখন) ১৮ 0, তখন, 

59) _824059) -5০)-৮০ 
এখন, শুরুতেই ধরে নিই, 

//০ ল 0.0 

91 ল 0.0 
সুতরাং, আমাদের হাইপোথিসিস দাঁড়ায়, 

1৮00 » ০+০১% 


এখন তাহলে এই হাইপোথিসিসে আমাদের প্রথম ডেটাপয়েন্ট ৫,1) থেকে £ ₹ 1 যদি ইনপুট 
দিই, তাহলে মডেলের প্রেডিকশন হবে, 7,৫) 5 01 


৭৫ 


মেশিন লার্নিং আযালগরিদম 
'কইভাবে বাকি ডেটাপয়েন্টগুলোর জন্য আমরা যদি হিসাব করি, তাহলে দেখব সবগুলোর জন্যই 
হইপোিসিসের মান আসছে শূনয। অর্থাৎ মভেল-এর প্রেডিকশন হচ্ছে শূন্য। 


নিচের চার্টটি দেখি : 


17707 ৫) _ 7012 

জাত তত £17৮0০)-১০) (৮৮০০) 59) 
047980) 04089 | 

শ্ম 1 0 1 1 
হা ও 0 ১৪ 9 
4 3 ০ 3 91 
ঁ বা 2] 01 2 4 
চু রাগিব | 0] -5 5 
7০ | 14] 48 
টেবিল 3.8.2 


সুতরাং ৮০ ₹ 0 ও ৮৮ _ 0, এই প্যারামিটারের জন্য আমাদের ডেটাসেটের ০০5 হবে, 
)00,/1) _ গর [107,050) নু 70) 
-5-01+9+9+4+ 25) 17 ল 5, মোট ডেটাপয়েন্টের সংখ্যা] 


2৮5 
48 


109 


_ 48 


48 কিন্তু ০০5 হিসেবে বেশ বড়ো একটি মান, কারণ আমাদের লক্ষ্য ছিল ০০$-এর মানকে 
শূন্যতে নামিয়ে নিয়ে আসব। এখন, আমরা যেহেতু কেবল প্রথম ডেটাপয়েন্ট দেখেছি এতক্ষণে, 
সুতরাং প্রথম ডেটাপয়েন্ট দেখার পরে আমাদের একবার $/০1£-এর মান আপডেট করতে হবে। 


আমরা ধরে নিই, আমাদের লার্নিং রেট ৫ 5 0.01 
সূত্র অনুসারে, 
০» 0_0.01 % 8৮ (14) _ 0,028 


1%। _ 0-0.01 ৮ (14) ৯ 1 ₹ 0.028 


৭৬ 


অধ্যায় ৩ : লিনিয়ার রিগ্রেশন (18779ঝ17 7.০£725510177) 


এখন আমরা, এই নতুন 1০ _ 0.028 ও ৮৮: 0.028 নিয়ে আমাদের দ্বিতীয় ডেটা পয়েন্ট (2, 


3)-এর জন্য হিসাব করব। 
1/,(%) _ 0.028 + 0.028 ৮ 


নারি হু 
১ কু 17৮) 1877107 (৮৮0০) -১০) 
(018: (7501050 ; (৮০) ১০) 
04080 09090 ] 
রা 1 0.056 _0.94% 0.891 
2 3 0.084 _2.916 8.503 
4 3 0.14 _2.86 ক 
[ও 2 0.112 _1.888 3,564 
5 5 0.168 -_4.832 23,348 
৬৮০ 
7০] -_13.44 44485 
টেবিল 3.8.3 


2 
099৮] 00,101) _ 25270709) -১৮০)] 
7 
হু ৯ 44485 
44485 


দেখা যাচ্ছে যে আমাদের ০০$!কিন্তু আগের চেয়ে নেমে এসেছে, অর্থাৎ বোঝা যাচ্ছে যে আমাদের 
গ্রেডিয়েন্ট ডিসেন্ট কাজ করছে। 


আমরা এভাবে করে বাকি তিনটি ডেটা পয়েন্টের জন্যও হিসাব করব, দেখব আমাদের ৫০5-এর 
মান আরো কমবে। 


এভাবে আমাদের পাঁচটি ডেটা পয়েন্টের জন্য হিসাবনিকাশ শেষ হলে আমরা বলব যে, আমাদের 
প্রথম রাউন্ড শেষ হলো, অর্থাৎ প্রথম 7০০0. শেষ হলো। এরপর আমরা এই পাঁচটি ডেটা পয়েন্ট 
দিয়ে মডেলকে আরো এক রাউন্ড ট্রেনিং দেব। দ্বিতীয় রাউন্ডের শুরুতে //0 ও /: মান হবে প্রথম 
রাউন্ড শেষে শেষবারের মতো আপডেট করার পরে ৮/০ ও ৮৮!-এর মান যা ছিল সেটি। এভাবে 
আমরা আরো বেশ কয়েক রাউন্ডে মডেলকে ট্রেইন করব, ততক্ষণ পর্যন্ত যতক্ষণ না আমরা দেখব 
যে আমাদের ০০5-এর মান আর খুব বেশি নামানো যাচ্ছে না। 


ধরা যাক, পঞ্চম রাউন্ডের চে * 5 ₹ 25 বার %/6181, আপডেট করার পরে) শেষে আমাদের 
মোট 0০3-এর মান দাঁড়িয়েছে 0.35। এর পরের ষষ্ঠ রাউন্ডে ডেটি ডেটাপয়েন্টের জন্য আরো 5 


৭৭ 


মেশিন লার্নিং আযালগরিদম 


বার আপডেট করার পর) সেটি নেমে দাঁড়াল 0.349, তারপরে সপ্তম রাউন্ডের শেষে 
হয়তো 0.3451 অর্থাৎ বোঝাই যাচ্ছে, শেষ দুই রাউন্ডে সর্বমোট 10 বার আপডেট করার পরে 
আমাদের 0০৮এর মান আর খুব একটা কমছে না, এখানেই কস্ট-এর গ্রাফ অনেকখানি কাট 
হয়ে গেছে। সুতরাং, আমরা আর যতই ট্রেনিং দিই না কেন, 0০9-এর মান আর খুব একটা কমৰে 
না। অর্থাৎ আমাদের ট্রেনিং আমরা এখানে শেষ করতে পারি। 


ট্রেনিং শেষ করে, ধরা যাক, আমাদের /০ _ 0.2308 ও /: - 07904 
তাহলে আমাদের সর্বশেষ হাইপোথিসিস হবে _ 
1৮,09) _ 0.2308 + 0.7904 ৮ % 


এখন এই হাইপোথিসিসে আমরা -এর যে-কোনো মান বসালেই প্রেডিকশন পেয়ে যাব যে,). 
এর মান কত হবে এবং সেটি প্রকৃত »-এর মানের খুব কাছাকাছিই হবে। 


এই ছিল 078010719950077£ ব্যবহার করে কীভাবে আমরা লিনিয়ার রিগ্রেশন করতে পারি 
তার একটি উদাহরণ । 


অধ্যায় ৪ : লজিস্টিক রিগ্রেশন 0.081500 7২9:655102) ] 


লজিন্টিক রিগ্রেশন  (.0£1500 
13667955107) পদ্ধতিটি প্রথমবারের 
মতো ব্যবহার করেন পরিসংখ্যানবিদ 
ডেভিড কক্স (09৬10 0০%, 1924)। 
তিনি 1924 সালে বার্মিংহামে জন্মগ্রহণ 
করেন। তিনি সেইন্ট জনস কলেজ থেকে 
গণিত নিয়ে পড়াশোনা করেছেন এবং 
পরবর্তী সময়ে লিডস বিশ্ববিদ্যালয় 
থেকে পিএইচডি সম্পন্ন করেছেন। 


তিনি সারা জীবনে অসংখ্য পুরস্কারে 
ভূষিত হয়েছেন। এর মধ্যে উল্লেখযোগ্য 
তিনি লি 5 পাজি রর ছবি 4.1 : ডেভিড কক্স 09৭10 0০%, 1924) 
্ট্যাটিসটিকস থেকে। সেই সঙ্গে রানি দ্বিতীয় এলিজাবেথ তাঁকে 1985 সালে নাইটহুড প্রদান 
করেন। তিনি ছিলেন ব্রিটিশ একাডেমির একজন ফেলো। 


পরিচ্ছেদ ৪.১: কন্টিনিউয়াস ও ডিসক্রিট ডেটা (00200171005 8170 [0150509 
1050) 


এই অধ্যায় শুরু করার আগে আমরা কন্টিনিউয়াস ডেটা (00701010057) ও ডিসক্রিট ডেটা 
00150901099) সম্পর্কে একটু জানব। সহজ করে বলতে গেলে, কন্টিনিউয়াস ডেটা হচ্ছে 
একটি নির্দিষ্ট সীমার মধ্যেকার যে-কোনো সংখ্যা। যেমন, আমরা যদি চিন্তা করি যে 0 ও 3-এর 
ভেতরে যে-কোনো সংখ্যা এবং যদি বলে দিই আমরা কন্টিনিউয়াস মান নিয়ে কাজ করছি, তাহলে 
আমরা এই 0ও 3-এর ভেতরের যে-কোনো সংখ্যা নিয়ে কাজ করতে পারি, হোক সেটি পূর্ণ সংখ্যা 
(শুধু 0, 1, 2, 3 ইত্যাদি), কিংবা দশমিকযুক্ত সংখ্যা 00.001, 0.0000345, 1.234434456 
ইত্যাদি)। বুঝতেই পারছেন, যদি আমরা কন্টিনিউয়াস ডেটা নিয়ে কাজ করি, তাহলে 0 ও 3-এর 
ভেতরে অসীমসংখ্যক সংখ্যা পাওয়া সম্ভব। 


৭৯ 


মেশিন লার্নিং আযালগরিদম 
আবার, আমরা যদি ডিসক্রিট ডেটা (0150:609 10819) নিয়ে কাজ করতে যাই, সেটি হন 
কন্টিনিউয়াস ডেটার ঠিক বিপরীত। কন্টিনিউয়াস ডেটার ক্ষেত্রে যেমন আমরা একটি সীমাঃ 
মধ্যেকার যে-কোনো সংখ্যা নিতে পারতাম, ডিসক্রিট ডেটার ক্ষেত্রে আমরা তা পারব না। আম 
শুধু আমাদের সীমার ভেতরের নির্দিষ্ট কিছু সংখ্যা নিয়ে কাজ করতে পারব। যেমন, 0 ও 3-এ 
এই সীমায় শুধু 0.1, 2, 3 এই চারটি পূর্ণসংখ্যা নিয়েই কাজ করতে পারব। 


এখন আসি আমাদের মূল কাজে। আমরা লিনিয়ার রিগ্রেশনের ক্ষেত্রে সব সময় কন্টিনিউয়াস ডেটা 
নিয়ে কাজ করি। রিগ্রেশন কথাটির মানেই অনেকটা এরকম বোঝায় যে আউটপুট হবে কোনো 
একটি কন্টিনিউয়াস মান। 

এখন আমরা যে রিগ্রেশন শিখব, তার নাম লজিস্টিক রিগ্রেশন। কিন্তু, নামের মধ্যে রিগ্রেশন শব্দ 
থাকা সত্তেও এটি কন্টিনিউয়াস মান নয়, ডিসক্রিট মান আউটপুট দেয়। এটি কন্টিনিউয়াস ব 
ডিসক্রিট দুই ধরনের মান নিয়েই কাজ করতে পারে, কিন্তু এর আউটপুট সব সময় হয় ডিসক্রি 
মান। এটি মূলত একটি ক্লাসিফিকেশন আযালগরিদম। 


পরিচ্ছেদ ৪.২ : লজিস্টিক রিগ্রেশন (0.0£1500 [২০2.955107)-এর হাইপোথিসিস 


লজিস্টিক রিগ্রেশনে আমাদের লক্ষ্য হবে, হাইপোথিসিস থেকে পাওয়া আউটপুট যেন 0 থেকে!- 
এর ভেতরে থাকে। আউটপুট যদি 0.5-এর চেয়ে ছোটো হয়, তাহলে আমাদের লজিস্টির 
রিগ্রেশনের সর্বশেষ আউটপুট হবে 0, আর যদি তা 0.5-এর সমান বা এর চেয়ে বড়ো হয়, তাহদে 
লজিস্টিক রিগ্রেশনের সর্বশেষ আউটপুট হবে 1। 


এর মান 0 থেকে 1-এর ভেতরে রাখার পেছনে যুক্তি হচ্ছে, এটি মূলত সন্তাব্যতার মান আউটপুট 
হিসেবে দেয়। ধরুন, আপনি একটি প্রাণীর ছবি ইনপুট দিয়েছেন এবং লজিস্টিক রিগ্রেশনের 
মাধ্যমে বের করতে চাইছেন যে, সেটি একটি কুকুরের ছবি কি না। যদি সেটি কুকুরের ছবি হয 
তাহলে হিসাবনিকাশ করে হাইপোথিসিস আউটপুট দেবে 0.5 থেকে 1-এর মধ্যবর্তী কোনো একাঁ 
মান যেটি বোঝাচ্ছে যে ছবিটি কুকুরের হওয়ার সন্তাব্যতা বেশি। আর যেহেত্ব, এ 
হাইপোিসিসের মান 0.5 থেকে 1-এর মধ্যে আছে, সেহেতু আযালগরিদমের ফাইনাল আউট 
হবে 1, অর্থাৎ ছবিটি একটি কুকুরের ছবি। 


আর যদি সেটি না হয়, অর্থাৎ ছবিটি যদি কুকুরের না হয়ে অন্য কিছুর হয়, তাহলে আগর! 
হাইপোথিসিস হিসাবনিকাশ করে আউটপুট দেবে 0 থেকে 0.5-এর মধ্যবততী কোনো একটি সংখা 
0.5 হতে পারবে না, এর চেয়ে ছোটো হতে হবে কিন্তু) যেটি বোঝাচ্ছে যে ছবিটি কুকুরের হওয়া 


৮০ 


অধ্যায় 8 : লজিস্টিক রিগ্রেশন (02500 76£555107) 
সন্তাব্যতা অনেক কম এবং সেটি থেকে পরবর্তী সময়ে আযালগরিদমের ফাইনাল আউটপুট হবে 0 
অর্থাৎ ছবিটি কুকুরের নয়। 
একটু খেয়াল রাখবেন, এখানে আমরা দুই ধরনের আউটপুটের কথা বলেছি, একটি 
হাইপোিসিসের আউটপুট, আরেকটি লজিন্টিক রিগ্েশনের আউটপুট। দুটোর মধ্যে পার্থক্য কী 
সেটি এখনই পরিষ্কার করে দিচ্ছি। 
লিনিয়ার রিগ্েশনের ক্ষেত্রে, আমাদের হাইপোথিসিসের সমীকরণে প্যারামিটার ও ম-এর বিভিন্ন 
মান বসিয়ে হিসাব করে যে ফলাফল আসত, সেটিই ছিল আমাদের সর্বশেষ আউটপুট। লজিম্টিক 
রিগ্লেশনের ক্ষেত্রে তা হবে না। হাইপোিসিসের আউটপুট ও আযালগরিদমের আউটপুট আলাদা 
হবে। নিচের ফ্লো-চার্টটি লক্ষ করুন (ফ্লোচার্ট 4.2.1): 


৬০11) 
৬০০০1 


51010101:00110001) 


0০... পস্ 
8170০ 


951201010 / 1,0815010 
17501700101), 
8৫৫) 


ফ্লোচার্ট 4.2.1 
লজিস্টিক রিগ্রেশনে আমরা আগের মতোই ৮/7য-এর মান হিসাব করব। এর পরে, এই ৮/7%- 
এর মান আমরা একটি সিগময়েড (5187010) বা লজিস্টিক (.081500) ফাংশনে ইনপুট হিসেবে 
দেব। সিগময়েড/লজিস্টিক ফাংশনটি হবে এরকম _ 


৪৫) বু 


এখানে £ _ ৮72 হবে। ছবি 4.2.2-তে একটি সিগময়েড ফাংশন দেখানো হলো। এটি থেকে 
আমরা যে আউটপুট পাব, সেটিই আমাদের হাইপোথিসিস 7,» ০)-এর মান। এখন আমরা দেখব, 
যে এই সিগময়েড ফাংশন যে মান দিচ্ছে, সেটি 0.5-এর চেয়ে ছোটো কি না এতটুকু নিশ্চিত 
থাকুন যে সিগময়েড ফাংশনের আউটপুটের মান 0 থেকে 1-এর ভেতরেই থাকবে)। যদি ছোটো 


৮১ 


মেশিন লার্নিং আযালগরিদম 
হয়, তাহলে আমাদের /৮,() হবে 0। আর যদি না হয়, অর্থাৎ যদি 0.5-এর চেয়ে বড়ো বাঞী 
সমান হয়, তাহলে আমাদের 1৮ &) হবে 1। 
নিচে আপনাদের বোঝার সুবিধার্থে একটি টেবিল আকারে দেওয়া হলো : 


72 (815) 1 1505) 
9৫৮ ») বুদ | বরেটি লজিস্টিক রিগ্েশনের 
(এটি হাইপোথিসিস থেকে প্রাপ্ত মান) | ফাইনাল আউটপুট) 


91 0.5 1 
৯০ ৯০. 1 
বি 
হা 0.5 9 
টেবিল 4.2. 


ছবি 4.2.2 থেকে একটু যদি বিশ্লেষণ করি, তাহলে দেখবেন, এ-এর মান যতই _০০ (79840 
10010)-এর দিকে যাবে, ৪--এর মান ততই বড়ো হতে থাকবে খেণাত্বকে খণাতবকে মিনে 
ধনাত্বক হয়ে যাবে), অর্থাৎ ভগ্মাংশের হরের মান 1 + ৪-« বাড়তে থাকবে এবং একটি বিশান 

খ্যায় পরিণত হবে। তার মানে আমরা হাতে পাচ্ছি, নানা ভরসা এবং আমরা জানি :- 
কে আমরা যত বিশাল সংখ্যা দিয়ে ভাগ করব, তার ভাগফল তত শূন্যের কাছাকাছি হবে। সেটিই 
আমরা গ্রাফে দেখতে পাচ্ছি। যতই আমরা গ্র-এর মান কমাব অক্ষ বরাবর বাঁ দিকে যাব) 
ততই আমরা শূন্যের কাছাকাছি যাব এবং একসময় শূন্যে পৌঁছব। 


একইভাবে, গ্র-এর মান যতই +০০ (0510%9 1071010)-এর দিকে যাবে, ৪-«-এর মান ততই 
ছোটো হতে থাকবে এবং শূন্যের কাছাকাছি যেতে থাকবে, অর্থাৎ ভগ্নাংশের হরের মান 1 +6- 
তখন 1-এর কাছাকাছি যেতে থাকবে যেহেতু, 


1 + খুব ক্ষুদ্র কোনো সংখ্যা শেন্যের কাছাকাছি) ₹ 1 


আমরা পাচ্ছি, রা শেষমেশ 
তার মানে এবারে রাহাতে £এরুব কাছাকাছিকোনো দ্যা ে্দ7তততত যার ফলে 


আমাদের ভাগফল দাঁড়াচ্ছে 1-এর খুব কাছাকাছি কোনো মান অর্থাৎ, 1-ই ধরে নেওয়া যায়। 
সেটিই আমরা গ্রাফে দেখতে পাচ্ছি। যতই আমরা এ্-এর মান বাড়াব ঠে-অক্ষ বরাবর ডানদিকে 
যাব), ততই আমরা 1-এর কাছাকাছি যাব এবং একসময় 1-এ পৌছব। 


এখন শেষ কথা হচ্ছে - এটাকে তাহলে লজিস্টিক ক্লাসিফিকেশন কেন বলা হলো না, কেন 
রিগ্রেশনই বলা হলো একে? এর উত্তর খুব সহজ। একটু খেয়াল করলে দেখবেন, আমরা আমার্দের 
হাইপোথিসিস থেকে যে মান পাচ্ছি, সেটি কিন্তু একটি কন্টিনিউয়াস মান, তাই না? আর আমর 


৮২ 


অধ্যায় ৪ : লজিস্টিক রিগ্রেশন 0,০81500 7২6৪7555107) 
আউটপুট হিসেবে কন্টিনিউয়াস মান কোথায় পেতাম? রিপ্রেশনের ক্ষেত্রে, ঠিক? আর তা-ই একে 
লজিস্টিক রিগ্রেশন বলা হয়। কিন্তু এটি মূলত একটি ক্লাসিফিকেশন ত্যালগরিদম। 
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গ্রাফ 4.2.2 
লজিস্টিক রিগ্রেশনের আরেকটি বৈশিষ্ট্য হচ্ছে এটি একটি টু-ক্লাস ক্লাসিফিকেশন আযালগরিদম 
(৬/০-01855 0153919090017 918011010)। অর্থাৎ, এটি কোন ছবি _ কুকুরের কিংবা কুকুরের 
নয়_ এ দুটোর মধ্যে তফাত বের করতে পারবে। কিংবা, ছবিটি কুকুরের নাকি বিড়ালের _ এরকম 
দুটি ক্লাসের মধ্যে ক্লাসিফিকেশন করতে পারবে। 
এখন যদি বলা হতো কুকুর, বিড়াল ও হরিণ -এই তিনটি ক্লাসের মধ্যে ক্লাসিফিকেশন করতে, 
তখন কিন্তু এই সাধারণ লজিস্টিক রিগ্রেশন সেটি পারত না। তার জন্য দরকার হতো 
মাল্টিনোমিয়াল লজিস্টিক রিগ্রেসন (10107011081 1.081500 73687555107), যেটি এই 
সাধারণ লজিস্টিক রিগ্রেশনেরই আরেকটি ভার্শন। সেটি আপাতত আমাদের বইয়ের এখতিয়ারের 
বাইরে থাকছে। 
লজিস্টিক রিগ্রেশনের আরেকটি বৈশিষ্ট্য এখানে বলে রাখি। লজিস্টিক রিগ্রেশন তখনই কাজ 
করে, যদি আমাদের ডেটা 171707 [)11975107-এ নিয়ে গেলে সেটি লিনিয়ারলি সেপারেবল 
(479911) 99)015116) হয়। এর বিস্তারিত নিয়ে আর এখানে বলব না। 


পরবর্তী অধ্যায়েই সোপোর্ট ভেক্টর মেশিন _ 5012907 9০০7. 1480717) পরিচ্ছেদ ৫.৩-এ 
এই সম্পর্কে বিস্তারিত বলা হয়েছে। 


মেশিন লার্নিং আলগরিদম 
পরিচ্ছেদ ৪.৩ : লজিস্টিক রিগ্রেশনের কস্ট ফাংশন (0০057070007) ও প্রয়োগ 
পদ্ধতি 


এখন আমরা আমাদের লজিস্টিক রিগ্রেশনের কন্ট ফাংশন নিয়ে কথা বলব। লিনিয়ার রিগ্রেশনৈ 
আমাদের কস্ট ফাংশন ছিল - 


25251,09)-59) 


কিন্তু, লজিস্টিক রিগ্রেশনের ক্ষেত্রে আমাদের এই কস্ট ফাংশনে পরিবর্তন আসবে। এর কারণ 
হচ্ছে, আমরা লিনিয়ার রিগ্রেশনের কস্ট ফাংশনে হাইপোথিসিস 1০০) ব্যবহার করছি এবং 
লজিস্টিক রিগ্রেশনের ক্ষেত্রে এই হাইপোথিসিস একটি সিগময়েড ফাংশন হয়, তাই না (ফ্লো-চার্ট 
দ্রষ্টব্য)? এখন, আমরা যদি লিনিয়ার রিগ্রেশনের কস্ট ফাংশন লজিস্টিক রিগ্রেশনেও ব্যবহার করি, 
এর ফলে যেটি হবে, লজিস্টিক রিগ্রেশনে হাইপোথিসিসে সিগময়েড ফাংশন থাকার কারণে কস্ট 
ফাংশনের চেহারা দাঁড়াবে একটি নন-কনভেক্স ফাংশনের মতো (যে ফাংশনে অনেকগুলো লোকাল 
মিনিমা আছে)। অনেকগুলো লোকাল মিনিমা থাকার কারণে, আমাদের যে-কোনো একটি লোকাল 
মিনিমাম পয়েন্টে আটকা পড়ে যাওয়ার সম্ভাবনা বেড়ে যাবে, অথচ আমাদের লক্ষ্য হলো সব সময় 
কস্ট ফাংশনের সর্বনিয় মান অর্থাৎ গ্লোবাল মিনিমামে পৌঁছানোর। সেজন্য আমরা লজিস্টিক 
রিগ্রেশনে লিনিয়ার রিগ্রেশনের কস্ট ফাংশন ব্যবহার না করে নতুন একটি কস্ট ফাংশন ব্যবহার 
করব। ব্যাপারটি বোঝার জন্য ছবি 4.3.1-এর গ্রাফ দুটি দেখুন। 


0017৬০% 1017-00179% 


ছবি 4.3. 
সুতরাং লজিস্টিক রিগ্রেশনের জন্য নতুন কস্ট ফাংশন ব্যবহার করব, 


৮৪ 


অধ্যায় ৪ : লজিস্টিক রিগ্রেশন 0,081500 79278951017) 
& রর রী 
0 0//0, 11 012) "১ 1) ল ১০০ 0০5011৮,০), চা] 


যেখানে, 


গন্য -1090,2)), 71 
0০507৮,0),)০) নি ভিসি এ 0০ 


প্রথমেই বলে রাখি, এই ) হচ্ছে আগের মতোই, আমাদের আউটপুটের প্রকৃত মান যেটি আমরা 
আমাদের ট্রেনিং ডেটা থেকে পাব। এখানে দেখুন, যদি 7/- 1! হর, তাহলে 
0০9৫0, ০),৫)] » -1990,০)) হবে, আবার যদি /-0 হয় তাহলে, 
0০560 (৮0),9] » 1990 1, ৫০) হবে। ছবি 4.3.2-এর গ্রাফ থেকে ফাংশনগুলো 
দেখতে কী রকম তার একটি ধারণা পাওয়া যাবে। 


0.5 0.5 
-1990,0)) 199 01-1,00) 


সক 005৮ 


৫ 
দালাল 
1] [71] 0] 


৮৫ 


মেশিন লার্নিং আযালগরিদম 


,3.2- র কস্ট ফাংশনের গ্রাফ দুটি পর্যবেক্ষণ করলে, টেবিল 4.3.1-এর 
আপনারা ছবি 4.3.2-এর বানু পা পাপা ফা 


প্রকৃত মান এবং আমাদের অনুমান করা 
কাছাকাছি যেতে থাকবে, ততই কস্ট-এর মান 
এর ক্ষেত্রেও প্রযোজ্য । 

আমরা চাইলে আমাদের কল্ট ফাংশনটিকে আরেকটু সহজ করে, দুটি শর্তই একটি সমীকরণের 
মধ্যে নিয়ে এসে প্রকাশ করতে পারি। সে ক্ষেত্রে, কস্ট ফাংশনটি হবে এরকম : 


10, ৮, 9১০, 88) ল উঠ 0০5৫07 0৫),0)) 


অসীমের দিকে ধাবিত হবে। একই পদ্ধতি ) ৯. 


যেখানে, 
0০%07৮,0০),১০) ₹ -/001990,,0)) _ (৫7991990710) 
এখানে,যদি ₹ 1 হয়, তাহলে, 1 _ - 0হয়ে যাচ্ছে, যার মানে (৫ _2/)19/01 110) 
এ অংশটুকু বাদ পড়ে যাচ্ছে। ফলে বাকি থেকে যাচ্ছে ০০%0,(৮9)১০) ৯ 
_1০90,0), যেখানে 7-1 বসিয়ে আমরা পাচ্ছি 0০560, 00),)9) - 
_1990৮,0০), যেটি ছিল আমাদের প্রথম কস্ট ফাংশনের প্রথম প্রেক্ষাপট । 
আর যদি, ) ₹ 0 হয়, তাহলে _)/10/0,,০)) এই অংশটুকু পুরোটুকু বাদ পড়ে যাচ্ছে। ফনে 
বাকি থেকে যাচ্ছে 0০50৮,(৮৫),)৫)) ল _৫ _)1990 _%/০) যাতে 9-0 
বসিয়ে আমরা পাচ্ছি -19৫ _/,0)), যেটি হলো আমাদের প্রথম কস্ট ফাংশনের দ্বিতীয় 
প্রেক্ষাপট । 
তাহলে আমরা দেখতে পাচ্ছি, দ্বিতীয় কস্ট ফাংশনটিতে আসলে একটি সমীকরণ দিয়েই প্রথম 
কস্ট ফাংশনের দুটি প্রেক্ষাপট ই আমরা পেয়ে যাচ্ছি। তাই, আমরা কস্ট ফাংশন হিসেবে দ্বিতীয়টিই 
ব্যবহার করব। 
যাহোক, আমরা আমাদের কল্ট ফাংশন পেয়ে গেলাম। আর বাকি থাকল এখন শুধু গ্রেডিয়েন্ 
ডিসেন্ট আযালগরিদম কিংবা নরমাল ইকুয়েশন (২0111 008007) পদ্ধতিতে প্যারামিটার 
আপডেট করা যেটি হুবহু আগের মতোই হবে, যেভাবে আমরা মাল্টিভ্যারিয়েট লিনিয়ার 
রিগ্রেশনের ক্ষেত্রে পড়ে এসেছি পেরিচ্ছেদ ৩.৪)। 


গ্রেডিয়েন্ট ডিসেন্ট আসলেই কীভাবে কাজ করে সেটি উদাহরণের সাহায্যে বুঝতে পরিচ্ছেদ ৩৮ 


৮৬ 


অধ্যায় ৪ : লজিশ্টিক রিগ্রেশন 0,081500 03927695107) 
কাজ করে, সেটি একেবারে হাতে কলমে দেখানো হয়েছে। এখানেও সেটি একইভাবে কাজ 


করবে। 


পরিচ্ছেদ 8.৪: লজিস্টিক রিগ্রেশনে রেগুলারাইজেশনের ব্যবহার 


লজিন্টিকরিগ্রেশনের প্রাথমিক বিষয়গুলো আমরা ইতিমধ্যেই পড়ে ফেলেছি। এটি খুবই জনপ্রিয় 
একটি ক্লাসিফিকেশন আযালগরিদম। লজিস্টিক রিগ্রেশনের কম্ট ফাংশন এরকম : 


/0//) » স্ 0০5007,(০9),)০) 


যেখানে, 
0০9:0/,(৮9),0)] _ -)1০90৮০)- ৫-5)1290- 10) 


সুতরাং, পুরোটুকু একসঙ্গে মিলিয়ে লিখলে দাঁড়ায়, 
101) _-_812:0091290569)) + 0-)12907 1009১) ] 


আমরা ইতিমধ্যেই পরিচ্ছেদ ৩.৭ থেকে জানি, 1.2 রেগুলারাইজেশনের জন্য আমাদেরকে এখানে 
অতিরিক্ত একটি টার্ম যোগ করতে হবে, সেটি হচ্ছে 


4. 7 2 
277 215 10 


এখানে ॥ হচ্ছে আমাদের রেগুলারাইজেশন প্যারামিটার এবং আমরা রেগুলারাইজ করব %-কে 
অর্থাৎ আমাদের ওয়েইটগুলোকে। আমরা আরো জানি, আমরা যে পদ্ধতিতে রেগুলারাইজেশন 
করলাম, তার নাম হচ্ছে 1.2 রেগুলারাইজেশন। এটি ছাড়াও, আরেকটি পদ্ধতি আছে, যাকে বলে 
1.1 রেগুলারাইজেশন। সেখানে আমাদেরকে যোগ করতে হতো _ 


॥ 
হু: 1) 


আমরা আমাদের এই বইতে 1.2 রেগুলারাইজেশন ব্যবহার করব, কেননা ওভারফিটিং এড়ানোর 
জন্য 1.1 রেগুলারাইজেশনের চেয়ে 1,2 রেগুলারাইজেশন ভালো কাজ করে। এর আরো বিস্তারিত 
গাণিতিক হিসাবকিতাব আছে, যেগুলো সংগত কারণেই আমরা আপাতত এড়িয়ে যাব, পরবর্তী 
সময়ে যদি কাজ করতে করতে জানার প্রয়োজন হয় তখন জেনে নেব। 


তাহলে 1.2 রেগুলারাইজেশন ব্যবহার করে আমাদের সর্বশেষ কস্ট ফাংশনটি দাঁড়াচ্ছে : 


৮৭ 
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ঢা ৫) 1০৪ (0,(০)) ) রঃ 7 
& ৫ রি 0/2 
/0%) » 1.6৮000-৮৮) হি ) 
দেখে হতো মন হচ্ছে অনেক জটিল, কীভাবে কী করব? কীভাবে এটি মোগ করার পরে আমাদের 
পিট িসনট পদ্ধতি ব্যবহার করে প্যারামিটার আপডেট হবে? 

| র প্যারামিটার বা ওয়েইটগু 

গ্রেডিয়েন্ট ডিসেন্ট ব্যবহার করে কীভাবে লিনিয়ার রিগ্রেশনের নো 
আস করেছিলাম, আশা করি সবার মনে আছে। তবু এখানে আমি আরেকবার শিখে দিছি 
প্রথম প্যারামিটারের জন্য : 


৪ 
1//0 0 _ ৫5/5/0%) 


151 


7/0)-5ঠলযা/৮০০)-১০]] 
_ 80550709)- 7০)-%00 

পরবর্তী সব প্যারামিটার 0 _ 1, 2,3,.-,7) জন্য _ 
॥/ -৮)-57/0%) 


ঢা 912 
৪710) লু ল্য 20 £০9)-79) ] 


লু 22 10৮,0৮০) 99) 
এখন, এটি ছিল সাধারণ গ্রেডিয়েন্ট ডিসেন্ট, কোনোরকম রেগুলারাইজেশন ছাড়াই। এখন, আমর 
যদি রেগুলারাইজড কন্ট ফাংশন ব্যবহার করি, যেটি কিনা এরকম : 


1 নাঃ 991০8 (7.,(৮০)) 9 সহ 
বস ০ ৮ 


সে ক্ষেত্রে, আমাদের প্যারামিটার আপডেটের ক্ষেত্রে সামান্য কিছু পরিবর্তন আসবে। প্র 
প্যারামিটার $/০-এর জন্য আগে যা ছিল তা-ই থাকবে _ 


%০ -৮৮)_৫75/0/) 


7/0/)- 75511108(৫)) ১৫0] 499) 


91/0 


৮৮ 


অধ্যায় ৪ : লজিস্টিক রিগ্রেশন (1.081500 1২687955107) 
পরবর্তী প্যারামিটার 0 - 1, 2,3, ...,7)-গুলোর জন্য পরিবর্তিত হয়ে হবে _ 


08 25/0/) 
£ 4. 
দি 10%) _ 87:00) -১০)-০-৪৮% 


ব্যস, শুধু এটুকুই পরিবর্তন। বাকি সবকিছু আমরা যে লজিস্টিক রিগ্রেশন পড়েছি, সে 
পদ্ধতিতেই করতে হবে। 


৮৯ 


অধ্যায় ৫: সাপোর্ট ভেক্টর মেশিন (80007 %90৮01 
115010106 - 5৬1) 


সাপোর্ট ভেক্টর মেশিন আযালগরিদমটি প্রথম আবিষ্ষার করেন ভরাদিমির ড/1201717 (0110 
1936) ও আলেক্সেই (১1০৯৫ 00101010115, 1938 - 2014) নামের দুজন বিজ্ঞানী, 196) 


সালে। 

পরবতী সময়ে বোসের (80171119107. 39961), ইসাবেল (05906119 1. 0001) ও ভ্বাদিমির 
মিলে 1992 সালে আধুনিক সাপোর্ট ভেষ্টর মেশিন ও কার্নাল ট্রিক সম্পর্কে ধারণা দেন, যা নন. 
লিনিয়ার ডেটা ক্লাসিফাই করার জন্য পরবর্তীতে ব্যবহৃত হয়। 


/ ঢু 1 


91501)1 /01)0114 1936 £1989 00670161115, 1938 - 2014 
ছবি 5.1 


সাপোর্ট ভেক্টর মেশিন খুব সম্ভবত মেশিন লার্নিংয়ের সবচেয়ে বহুল ব্যবহৃত এবং অন্যতম জনপ্রিয় 
আযালগরিদম। এই আযালগরিদম বহু জায়গায়, বহু প্রবলেমসেটে বহুভাবে ব্যবহৃত হয়েছে। এর 
জন্য অসংখ্য অপটিমাইজেশন মেথড রয়েছে, সেই সঙ্গে রয়েছে এর নানাবিধ ত্যাগ্রিকেশন। 


সাপোর্ট ভেক্টর মেশিনের উদাহরণসহ ব্যবহারের পদ্ধতি শেখার গঠন 
রী চিল র আগে তাই আমরা এর 


৯০ 


ছবি 5.2 


ওপরের গ্রাফটি ছেবি 5.2) লক্ষ করি। ধরি, বর্গাকৃতির চিহ্ন দিয়ে দেখানো চারটি পয়েন্ট 035৪ 
1-এর এবং ডায়মন্ড আকৃতির চিহ্ন দিয়ে দেখানো চারটি পয়েন্ট 0935 2-এর। 


এখন, যদি আমরা 01855 1-এর প্রতিটি পয়েন্টের সঙ্গে 0555 2-এর প্রতিটি পয়েন্টের দূরত্ব বের 
করি এবং সেখান থেকে বের করার চেষ্টা করি যে, এই দুই ক্লাসের কোন কোন পয়েন্টগুলো একে 
অপরের সবচেয়ে কাছাকাছি আছে (যে দুটো পয়েন্টের মধ্যে দূরতৃ মাপ, তারা অবশ্যই ভিন্ন ভিন্ন 
ক্লাসের হতে হবে), তখন দেখব যে ৫2,1), 0,_1)ও (&,০)-_ এই তিনটি পয়েন্ট একে অপরের 
সবচেয়ে কাছাকাছি গ্রোফে বৃত্তাকৃতির চিহ্ন দিয়ে দেখানো হয়েছে)। 


মারো লক্ষ করি, আমি যদি কোনো একটি রেখা টেনে এই দুটি ক্লাসকে আলাদা করতে চাই 
(মাঝখানে মোটা দাগ দিয়ে দেখানো, একে 1960510॥ 7০01091/ বলে), তবে দেখুন যে (3, 1), 
(4-1) ও &4,0) এই তিনটি পয়েন্টই ডিসিশন বাউন্ডারির সবচেয়ে কাছে থাকবে। 


আর তাই এই পয়েন্টগুলোকে বলা হয় সাপোর্ট ভেষ্টর। গ্রাফটি ভালো করে লক্ষ করলে দেখা যাবে 
থে, (21) ও (2,-1) হচ্ছে ডিসিশন বাউন্ডারি থেকে 01755 1-এর সবচেয়ে কাছের দুটি পয়েন্ট 
এবং এদের থেকে ডিসিশন বাউন্ডারির দুরত্ব 1)1। তাই বলা যায়, 035$ ।-এর পয়েন্টগুলো 
থেকে এই ডিসিশন বাউন্ডারির সর্বনিয় দুরত্ব 1)1। একইভাবে, (4,0) হচ্ছে ডিসিশন বাউন্ডারি 


৯১ 


মেশিন লার্নিং আযালগরিদম 
এবং এর থেকে ডিসিশন বাউন্ডারির দূরত্ব 02। তাই 
বলা যায়, 0859 £ এর পয়েন্টগুলো থেকে এই ডিসিশন বাউন্ডারি সর্বনিয় দূরত্ব 021 


র মধ্যেকার মোট দূরত্ব তাহলে হলো 2 - 017 1921 একে আমরা বনি 
এখন, দুটি দেল হচ্ছে এই মার্জিন যতটা তব ্ািমাইজ করা। কারণ, দুটি ভি জি 


ক্লাসের পয়েন্ট যত কাছাকাছি থাকবে, তত ওভারল্যাপিং 00৮০7191071018) হওয়ার সম্ভাবনা 
বাড়বে এবং ফলে এক ক্লাসের পয়েন্ট আরেক ক্লাসের পয়েন্ট হিসেবে মিসরলাসিফাইউ 
(41501995160) হওয়ার সম্ভাবনা বাড়বে। 


সাপোর্ট ভে্টর পয়েনটগুলোই আমাদের ডিসিশন বাউন্ডারি এবং মার্জিন ঠিক করতে সহায়ত 
করে। সাপোর্ট ভেক্টর বাদে কোনো ক্লাসের অন্য পয়েন্টগুলো ক্লাসিফিকেশনে তেমন কোনো গুরুত্ব 
বহন করে না। 


আমরা যদি আমাদের সাপোর্ট ভেন্টর পয়েন্টগুলো ডানে-বাঁয়ে-ওপরে-নিচে সরাই, তাহলে তার 
সঙ্গে সঙ্গে কিন্তু ডিসিশন বাউন্ডারিও সরবে, যেটি মার্জিনের মানে পরিবর্তন আনবে এবং প্রভাব 
ফেলবে ক্লাসিফিকেশনে। আর তাই আমাদের যা করতে হবে তা হলো, সাপোর্ট ভে 
পয়েন্টগুলোর মধ্যবর্তী এমন কোনো জায়গায় ডিসিশন বাউন্ডারি আঁকতে হবে, যাতে মার্জিন বৃদ্ধি 
পায়। এই ডিসিশন বাউন্ডারি খুঁজে বের করার কাজই করে দেয় সাপোর্ট ভেক্টর মেশিন 
আযালগরিদম। সাপোর্ট ভেক্টর মেশিন সব সময় বৃহত্তম মার্জিন 0,715990 7191610) খুঁজে বের 
করার চেষ্টা করে দেখে একে লার্জেস্ট/ম্যাক্সমাম মার্জিন ক্লাসিফায়ার (1,075990/19য])। 
141971750) 019551691)-ও বলা হয়। 


থেকে 08552-এর সবচেয়ে কাছের পয়েন্ট 


পরিচ্ছেদ €.১ : লিনিয়ার সাপোর্ট ভেক্টর মেশিন (10921 58079০09000 
115010102 -1,5$14) 


আমরা লজিস্টিক রিগ্রেশন পড়ার সময় হাইপোথিসিস হিসেবে নিয়েছিলাম _ 


19,0০7 ৫) -২ 


2762 


যেখানে, € _1//72ছিল। একে যদি আমরা একটি গ্রাফে প্লট করি, তাহলে গ্রাফ 5.1.1-এর মত 
একটি গ্রাফ পাব। 


* যদি প্রকৃত আউটপুট - হয়, তাহলে আমরা রঃ 
0 হোক। আবার, রাচাই 1৮,0) * 1 হোক, অর্থাৎ //7% ৯ 


৯২ 


অধ্যায় ৫ : সাপোর্ট ভেক্টর মেশিন (40০7696০0০7 718017176 - 5৬14) 
* যদি প্রকৃত আউটপুট ) _ 0 হয়, তাহলে আমরা চাই 1৮৮0 ₹* 0 হোক, অর্থাৎ //72 € 
0 হোক। 


গ্রাফ 5.1.1 


এখন, আমরা যা করব তা হলো, লজিস্টিক রিগ্রেশনে যা আমরা পড়েছি, তাকেই কিছুটা পরিবর্তিত 
করে সেখান থেকে কীভাবে সাপোর্ট ভেক্টর মেশিন শেখা যায় তা দেখব। 
লজিস্টিক রিগ্রেশনের ক্ষেত্রে, একটিমাত্র ডেটা পয়েন্টের জন্য 0০5: ছিল _ 

0০5৫ ল _)/109 0৮৮) _ ৫. -))199৫ -15৮0)) 


এখন, এই 0০3£ব্যবহার করে আমরা ওপরে যে দুটি প্রেক্ষাপট উল্লেখ করলাম 0৯ 1 ও 9» 
0) সেই দুটি নিয়ে একটু বিস্তারিত বিশ্লেষণ করি _ 


আমরা যদি, ) - 1 এর জন্য, 0//72 ৯৯ 0) নিই, সে ক্ষেত্রে আমাদের কস্ট দাঁড়ায়, 

005% ল _10850/ঞ)) 19৪7) 
এখন, শুধু এই অংশটুকু কে যদি আমি গ্রাফে প্লট করি, তাহলে গ্রাফ 5.1.2-এর মত একটি গ্রাফ 
পাব। 
এখন সাপোর্ট ভেক্টর মেশিন তৈরির জন্য, আমরা গ্রাফ 5.1.2-এর কার্ভটিকে দুই ভাগে ভাগ করব 
গ্রাফ 5.1.3-এর মতো। 
এই গ্রাফ 5.1.3-এর সঙ্গে গ্রাফ 5.1.2-এর কার্ভের অনেকখানিই মিল আছে। শুধু পার্থক্য হলো _ 
আগের গ্রাফের চেয়ে এই গ্রাফ একটু বেশি তীক্ষু। 


৯৩ 


মেশিন শাণিং আলগারণ্ 


1০9(7757) 


186 


গ্রাফ 5.1.3 


লিস্ট লারা জেনব সে শ্েত্রে আমাদের ক 
6০5» 10801 -14&)) » 108৫1 নর) 
পি এই অংশটুকু যদি আমি গ্রাফে প্লট করি, তাহলে তাহলে গ্রাফ 5.1.4.এর মত একটি 


এখন আবার আগের মতোই আমরা গ্রাফ 5.1.4 

.1.4-এর কার্ভটিকে ঠা 

৮ দুই ভাগে ভাগ করব রাফ 51 
৯৪ 


অধ্যায় ৫ : সাপোর্ট ভেক্টর মেশিন (0০76০0০714501176 - 9৬14) 


1০90 রুল) 


1০90 উল) 


গ্রাফ 5.1.5 
এখন, ( ₹ 1)-এর জন্য আমরা যে কস্ট পেলাম, ধরি তা হলো ৫০51) ও 0 _ 0)-এর 
জন্য যে কস্ট পেলাম, ধরি তা হলো 09360(2)। 


পরিচ্ছেদ 8.৪ থেকে হয়তো সবার মনে আছে যে, আমরা লজিম্টিক রিগ্রেশনের জন্য 
রেগুলারাইজেশন ব্যবহার করে যে কস্ট ফাংশন পেয়েছিলাম তা ছিল এরকম : 


11 ()] 1 ৫১) 7 
৮০০48 $1 ) ০৪ ৫ ) |) 


727 0+01- 0১)10৪ - (০) 


৯৫ 


মেশিন লার্নিং আলগরিদম 


এবং আমাদের অবজেকটিভ ফাংশন ছিল _ 
লিরা ২ 901০8 (/০(৮০)) নট সু 


অর্থাৎ আমাদেরকে ওপরের এই রেজুলারাইজড কন্ট ফাংশনকে মিনিমাইজ করতে হবে 1-এর 
সাপেক্ষে, এটিই ছিল আমাদের লক্ষ্য। এখন তাহলে, যদি সাপোর্ট ভেক্টর মেশিনের জন্য এরকম 
একটি অপটিমাইজেশন ফাংশন লিখতে যাই, আমাদের এতক্ষণের যাবতীয় কাজকর্মের সাপেক্ষ, 
তাহলে সেটি দাঁড়ায় এরকম _ 


হশ্ু )0) (- 105 (৮ (*০))) কু 7 নি 
ঠা রঃ 9৫১) ০ 1০৪ (- /০(9))) " রি | 
এবং, সেখান থেকে শেষমেশ পাওয়া যায় _ 


ঘা) 315 09055510)) + ৫.-99)05922)))1+ 25575, 


৮ 


এখন দেখুন, এই সমীকরণটি এখনো একটি বিদঘুটে অবস্থায় রয়ে গেছে। একে আরো একটু 
সরলীকরণ করতে হবে। সেজন্য প্রথমেই আমরা যেটি করব, তা হলো 7 টার্মটি বাদ দিয়ে দেব, 


কেননা এটি একটি ধ্রুবক এবং আমাদের এই অপটিমাইজেশন প্রবলেমে এটি তেমন কোনো 
প্রভাব ফেলবে না। 


তাহলে ফাংশনটি দাঁড়াচ্ছে এরকম _ 
[0 [52। 00)(0০516)) + (৫-১)(০০%০৫)))] +25-1%5 


এখন এই ফাংশনটি আমরা এইভাবে লিখতে পারি _ 
4+90 


যেখানে, 4 _ 7717 | 5:01) (50)00০500)) + (1 _০১)0০০50)0)))] এবং 
8 -251-17/5। 


এখন, ওপরের এই 4 +98-কে আমরা একটু বদলে এইভাবেও লিখতে পারি, 


অধ্যায় ৫: সাপোর্ট ভেক্টর মেশিন (5109077:50607-1440106 - 54) 


৫ +9 যেখানে, 0 4 


4 


সুতরাং সবশেষে আমাদের ফাইনাল অপটিমাইজেশন প্রবলেমটি দাঁড়ায় এরকম _ 


700 0 [5:1৮ 0৫005546)) + 0.0) (0০5০৫)))]+ 5500-58%2 


এবংআমাদের সাপোর্ট ভেন্টর মেশিনের জন্য হাইপোখিসিস হবে _ 


0, 1/72€ ০9 
1010)» রি 1/7 ৯0 


এখন আসি প্যারামিটার কীভাবে আপডেট করব সে আলোচনায়। এটিও আগের পরিচ্ছেদ 
দেখানো লজিস্টিক রিগ্রেশনের রেগুলারাইজড প্যারামিটার যেভাবে আপডেট করা হছে, সেভাবে 


করতে হবে_ 
প্রথম প্যারামিটার ৮০-এর জন্য, 


10 _ ৮0 - ৫570) 

৪ 4 / ৰ 
2 টি 255710(9) লি 7৫)).90৫) 

পরবতী প্যারামিটারগুলোর 0 _ 1, 2, 3,...7) জন্য, 
ঠৈ 

/ 4 - গনক/0013 
১৪-)0/) _ 45107, (49) -১9).09) উল 
8) »- টি ১7৫6 এ] ৫] 


এই হলো একটি লিনিয়ার সাপোর্ট ভেক্টর মেশিন কীভাবে তৈরি করতে হয় তার বর্ণনা। পরবতী 
পরিচ্ছেদে আমরা দেখব কীভাবে, এত জটিল গাণিতিক হিসাবকিতাব একটু এড়িয়ে সহজ করে 
একটি লিনিয়ার সাপোর্ট ভেক্টর মেশিন তৈরি করা যায়। 


পরিচ্ছেদ ৫.২: লিনয়ার সাপোর্ট ভে্টর মেশিনের একটি সহজ উদাহরণ ___ 


আমরা এতক্ষণ যে উদাহরণটি ব্যবহার করলাম, সেটিই আমরা আবার ব্যবহার করব। আমরা 
ইতিমধ্যেই দেখেছি যে, উদাহরণে আমাদের সাপোর্ট ভেষ্টর হচ্ছে তিনটি। এদেরকে 51,52 ও 5৪ 


৯৭ 


মেশিন লার্নিং আযালগরিদম 
নাম দিই। সেই সঙ্গে, 0955 1-কে নেগেটিভ ক্লাস এবং 01459 2-কে পজিটিভ ক্লাস বলে চিহ্নিত 


করি। 
সুতরাং 51 _ (?),5 হু (4) এবং 5৪ ল ($)। 


আমরা, এই তিনটি সাপোর্ট ভেক্টরের প্রতিটির সঙ্গে '1' অগমেন্ট (4১011610 করব (শেষে একটি 
করে রো যোগ করব এবং মান হবে 1) বায়াস (8195) হিসেবে । এর গাণিতিক কিছু গুরুত্ব আছে, 
আমরা পরবতী সময়ে সেটি নিয়ে আরো বিষদভাবে আলোচনা করব। আপাতত, “| অগমেন্ট করে 
নতুন সাপোর্ট ভেক্টরগুলো হবে _ 


2 2 4 
৪-(১)5-0)-5-0 
ণূ 1 ণ 
এখন, যেহেতু আমাদের সাপোর্ট ভেক্টর তিনটি, তাই আমাদের তিনটি প্যারামিটার থাকবে, 


এদেরকে আমরা ৫, ৫2 ও ৫3 দিয়ে চিহিত করব, যারা যথাক্রমে 51, $2 ও $3-এর সঙ্গে সম্পৃক্ত। 


এখন এই তিনটি প্যারামিটারের মান বের করার জন্য আমাদের তিনটি লিনিয়ার ইকুয়েশন সমাধান 
করতে হবে _ 


০1-51-5117 %2 "52 51103 -53 51 71 1 13928055 01955 ৮0101) 
02751 +$2 102 52 213 "5 +52 7:71 ঠ2 5840৮ 01935 ৮0170 
2755 53402792252 + 03 58755 ল 41. 2 60510601935 20170 


এই সমীকরণগুলো সমাধান করে আমাদেরকে তিনটি প্যারামিটার ৫, %2 ও ৫3-এর মান বের 
করতে হবে। এখন সমীকরণগুলোতে $;, $ ও $-এর মান বসিয়ে পাই _ 


00-00-৮909 
'00)(৮00- 


1 
৮(80৮0508-5(88- 
চা £/ ১ 1/ ও 
সমীকরণগুলো সরল করে পাই _ 


৯৮ 


অধ্যায় ৫: সাপোর্ট ভেক্টর মেশিন (50090016/60চ০৮ 145001706 - 5৬) 
601 + 42 793 _ 1. 


401 4+6%2 + 9%3 - -_1 
901 41902 41703 ৯ +1. 
এখানে সরলীকরণের জন্য সাধারণ ভেস্টর ডট গুণন পদ্ধতি প্রয়োগ করা হয়েছে। আমি ধরে নিচ্ছি, 


৮ পড়েছেন। আমি তা-ও এখানে আরেকবার সেটি 
লিখে টলর 


দিনার রি ৫1 11 
ধরি, 4 ও ? দুটি ভেক্টর এবং 4 (৫) এবং 8 ল (৮) 
03 03 


তাহলে ভেক্টরদ্রয়ের ডট গুণন, 4 - 8 ₹ 28: 4 ৫2৮2 + ৫33 
সুতরাং এখন ওপরের তিনটি সমীকরণ সমাধান করে পাই, %1,%2 ₹ _-3.25 এবং %3 _ 3.51 


আমরা আমাদের সব প্যারামিটারের মান পেয়ে গিয়েছি। এখন, এগুলো ব্যবহার করে আমাদেরকে 
আমাদের ডিসিশন বাউন্ডারি হিসেবে ব্যবহৃত হাইপার গ্রেন (7)799-186)-টির সমীকরণ বের 
করতে হবে। এটি বের করতে পারলেই আমাদের কাজ শেষ। 


আমাদের হাইপার প্লেনের সমীকরণকে যদি 7 ₹ ৮৮৮ + & ধরি, যেখানে হচ্ছে বায়াস এবং 1 
হবে //-এর অগমেন্টেড রূপ। 


এখন, ডিসিশন বাউন্ডারি হাইপার প্লেন বের করার জন্য আগে আমাদের 7 বের করে নিতে হবে, 
এর সূত্র হচ্ছে _ 

9 ৯ 5:15 
এখন, এই সমীকরণে সব মান বসিয়ে পাই, 


রী 2 2 4 
1 _ (-3.25) ) +(-3.25) (-:) + 3.5) ৮ 
1 1 1 


এখন, আমরা বলেছিলাম যে আমরা অগমেন্ডেট '1/ ব্যবহার করছি বায়াস হিসেবে, যেটি একেবারে 
শেষের রো-এর অতিরিক্ত 1-টিকে বোঝায়, 87, ও $-এর ক্ষেত্রে 
৯৯ 


মেশিন লার্নিং আযলগরিদম 


1 
7 1 3 (1 
নাং লে হিল ধরতে গেল (9.) এ _3 হচ্ছে বায় স এবং - (৪) ] 


দুটো বিষয় একটু মনে রাখতে হবে_ 
্ বায়াসের মান খণাত্বক মানে অফসেট হবে ধনাত্মক, আর বায়াসের মান ধনাতবক মাট 
অফসেট হবে ধণাত্বক। অফসেট বলতে এখানে সরণ বোঝানো হচ্ছে। অর্থাৎ ডিস: 
বাউন্ডারিটি কোনদিকে কতটুকু সরবে, সেটি। 
»1৮-(1) মানে ভার্টিকাল বা উন্লম্বরেখা আর 1/ _ (৫) মানে হরাইজ্টাল ব 
আনুভূমিক রেখা। 
এখন এই % এবং বায়াসের মান ) - ৮ + & সমীকরণে বসিয়ে, আমরা পেয়ে যাব আমানে 
কাজিক্িত ডিসিশন বাউন্ডারি হাইপার প্লেন । এখানে লক্ষণীয় বিষয় যে, বায়াস যদি 3 হতো, তাহটে 
ডিসিশন বাউন্ডারি থাকত %-অক্ষের ঝণাত্বক দিকে, 3 ঘর সরে। আর যদি 7 - (1) হহ 
তাহলে ডিসিশন বাউন্ডারি হতো স-অক্ষের সমান্তরাল। এ দুটো শুধুই কিছু শর্টকাট, সহজে জগ 
সময়ে ডিসিশন বাউন্ডারি বের করার জন্য। ডিসিশন বাউন্ডারি যদি দুটোর একটিও না হয়, তাহন 
আমাদের সাধারণভাবে সমীকরণে বসিয়ে সমাধান করতে হবে। 


কট 


1060151017 7010081/ 
[790101976 


€৯ 


গ্রাফ 5.2.1 


শেষমেশ বাকি থাকে, নতুন পয়েন্টকে ক্লাসিফাই করা। 


১০০ 


অধ্যায় ৫ : সাপোর্ট ভেক্টর মেশিন (4000175০001 145011716 _ 5৬14) 
_. টিং 
ধরা বাক, নতুন একটি পয়েন্ট * _ (9) 


11 
াদতিনিপনবাউক্ডাি-(১)--3-()-(9-3২-3০-8 

এখন, যেহেতু, ) 5 0 সুতরাং, এটি অবশ্যই নেগেটিভ ক্লাস অর্থাৎ 01595 1-এর অন্তর্ভূক্ত, যেটি 
আমরা শুরুতেই বলে নিয়েছি। যদি, ) ৯ 0 হতো, তবে এটি পজিটিভ ক্লাস অর্থাৎ 0855 2-এর 
অন্তর্ভূক্ত হতো। 

তাহলে এই হলো লিনিয়ার সাপোর্ট ভেক্টর মেশিন বা 1.5%1। আশা করি, সবাই বুঝতে পেরেছেন। 


এই উদাহরটিতে একটু ভিন্নভাবে সাপোর্ট ভেক্টর মেশিনের ধারণা বোঝানো হয়েছে। এরপরে 
আমরা দেখব সাপোর্ট ভেক্টর মেশিন কীভাবে নন-লিনিয়ার ডেটার জন্য কাজ করে। 


পরিচ্ছেদ ৫.৩: কার্নাল ট্রিক (00761 1100 ও নন-লিনিয়ার এসভিএম (3০7- 
আমরা এতক্ষণ যে ডেটা নিয়ে কাজ করলাম, সেগুলো ছিল লিনিয়ারলি সেপারেবল (410211/ 
5881:816) ডেটা । সহজ করে বলতে গেলে, এ ধরনের ডেটার বৈশিষ্ট্য হচ্ছে, এদেরকে একটি 
রেখা টেনে আলাদা করে ফেলা যায়। যেরকম, আমাদের আগের ব্যবহৃত ডেটাসেটটি গ্রোফ 5.3. 
_ মোটা দাগ টেনে দিয়ে আলাদা করে ফেলা হয়েছে দুই ক্লাসের ডেটাকে)। 

এখন, যদি ডেটাসেট এত সোজা না হয়? যদি, ডেটাসেটের ডেটা একটিমাত্র লিনিয়ার ডিসিশন 
বাউন্ডারি দিয়ে আলাদা করা না যায়? গ্রাফ 5.3.2 দেখুন। 

যদি ডেটাসেট হয় এরকম? তাহলে কীভাবে আলাদা করা যাবে দুটি ক্লাসের ডেটাকে? একটিমাত্র 
সোজা দাগ টেনে তো এটি সম্ভব নয়। তাহলে? 

প্রথমে বলে নিই, এ ধরনের ডেটাকে বলা হয় লিনিয়ারলি নন-সেপারেবল ডেটা। এর অর্থ হচ্ছে, 
এদেরকে একটিমাত্র সরলরেখা দিয়ে আলাদা করা যাবে না। এজন্য, অন্য কোনো উপায় অবলম্বন 
করতে হবে। 


এই অন্য উপায়ের একটি গালতরা নাম আছে - কার্নাল ট্রিক' 00161171091 


কা্াল ট্রিক ব্যবহার করে, এরকম লিনিয়ারলি নন-সেপারেবল ডেটাকে আমরা €%াণ-এর সাহায্যে 
ক্লাসিফাই করতে পারি। 


মেশিন লার্নিং আযালগরিদম 


10690151017 90001709017 
170117617019779 


গ্রাফ 5.3.1 


ছবি 5,3.2 


নিরাপদ জট এর ভেতরকার থিওরি দেখাতে হলে অনেক গভীরে 
বাইরে বলা যায়। তাই আমরা অন্ত এ ৬৯০ রঃ 


১০২ 


অধ্যায় ৫ : সাপোর্ট ভেষ্টর মেশিন (07907. 06০0714508179 - 51) 
সর বুঝতে পারি যে কী করছি। রি | 
ক প্রথমেই বললাম যে আমাদের ডেটা এবার হচ্ছে লিনিয়ারলি 
বাই থেক, য়ারলি নন-সেপারেবল ডেটা 
রর মের জন আমাদেরকে কল ক নাে এক ধরনের উপায় অবলন করতে 


10-10/) 


1000 59909 1017-177991 
১ 081050017190017 রর 
রর 17770160050 90906 


ছবি 5.3.3 


ছবি 5.3.3 দেখলে ধারণা পাবেন যে, প্রকৃতপক্ষে 
আমরা যদি ইনপুট স্পেস 000 98০6)-এর দিকে তাকাই (যে ডেটা আমরা ইনপুট দিচ্ছি), 
তাহলে দেখব যে লাল ও নীল এই দুই ক্লাসের বিন্দুকে 
করতে পারব না। একটু লক্ষ করবেন, আমাদের ইনপুট 
অমরা একে একমাত্রিক বা 17) সরলরেখা দিয়ে আলাদা করার কথা 
টাকে তবে তাদেরকে একটি হিমাররিক বা 2) প্লেন একে আলাম রার 
যেটি ছবিতে প্রোজেক্টেড স্পেস 07০1০০50 92909)-এ দেখানো হয়েছে। 
এখন, আমরা এখানে একটি ফাংশন /0 ব্যবহার ৭ 
স্পেসের ডেটা ইনপুট দিয়েছি এবং ই ফাশনটি সেই 2) ইনপুট ডেটাকে পরিবর্তন করে, 
রি রা নিয়ে গিয়ে 2) ৬০ 
3)-তে করার পরে মেনে করুন, 
কেরির করার পরে লোন লা নিয় ভি বেগ ওল এটি 
য় এবন ভার একটি ্রমািক অবস্থানে আছে| দেখাকে এখন আমরা, খুব সহজেই এ 
লন শের তাক য়ে লাল এবং ীল লালের ঢেটাকে আলাদা বম র 


১০৩ 


মেশিন লার্নিং আলগরিদম 


থেকে 99. নিয়ে যাওয়ার জন্য যে ম্যাজিক ফাংশনটি আমরা ব্যবহার করলাম, সেটিই হচ্ছে 


কার্নাল ফাংশন। 

কার্নাল ফাংশন, সহজ করে 
কিছু সংখ্যা ইনপুট দেব, কার্নাল ফা 
নতুন কতগুলো সংখ্যা ফেরত দেবে। 


বললে এক ধরনের ম্যাপিং ফাংশন। সেই ফাংশনের ভেতরে আমা 
₹শন সেই ইনপুট ডেটা নিয়ে কিছু গুণ-ভাগ করে আমাদের 


যেমন ধরা যাক, 
এব 12৫ 
[05,25) » কঃ ্া 


ধরি, এটি একটি কার্নাল ফাংশন। এটি যেভাবে কাজ করবে, আমাদের নন-লিনিয়ার গ্রাফ থেকে 
দেখুন _ ডেটাপয়েন্টগুলো হচ্ছে (৫, 0), 0, 0), 3, 0) ইত্যাদি। 
এখন, এই ডেটাপয়েন্টগুলোকে যদি আমি এক এক করে কার্নেলে ইনপুট দিই _ 


7৫,০)-( টি] ল৫,1) 
70,০) ₹ (2 এ ক ০১4) 
£3,0) ₹ (3720) _ 3,9) ইত্যাদি। 


তাহলে, এইগুলো হবে আমাদের নতুন ফিচার ডেটা পয়েন্ট। এই নতুন ফিচার ডেটা পয়েন্ট নিয় 
আমরা কাজ করব। আমাদের লক্ষ্য হবে এমন একটি কার্নাল ফাংশন খুঁজে বের করা, যেটি ব্যবহার 
করে আমরা যে নতুন ফিচার ডেটা পয়েন্টগুলো পাব সেগুলো যদি গ্রাফে প্লট করি তাহলে দেখব 
যে আমাদের নতুন ফিচার ডেটা এমনভাবে প্লট হয়েছে, যাতে তাদের আমরা লিনিয়ারলি সেপারে 
করতে পারি একটি সরলরেখা টেনে, কিংবা একটি হাইপার প্লেন দিয়ে)। 

সাধারণত কার্নাল ফাংশনে আরেকটি কাজ করা হয়, সেটি হচ্ছে, আমাদের মূল ইনপুট ডেটার রে 
ডাইমেনশন, কার্নাল ফাংশন ব্যবহার করে ফিচার তৈরি করে নেওয়ার সময় সেই ডেটার 
ডাইমেনশন বাড়িয়ে দেওয়া হয়। 


যেরকম ধরা যাক, 


242 
17 0%1,%2) » 222 
512 47222 


১০৪ 


অধ্যায় ৫: সাপোর্ট ভেক্টর মেশিন (91207: /০010-1180170 - 54) 


থানে দেখুন, আমাদের ইনপুট ডেটার ভাইমেনশন ছিল 2, পরিবর্তিত 
এ চিক যেরকম আমরা শুকুর উহ দেখলাম? পরিবর্তিত ডেটা 
ডেটাই আমাদের এখন ফিচার হিসেবে ব্যবহৃত হবে। 


এখন প্রশ্ন হচ্ছে, আমরা কীভাবে বুঝব কোন ফাংশন কার্নাল হিসেবে ব্যবহার করতে হবে? 
সাধারণত, সাপোর্ট ভেক্টর মেশিনের ক্ষেত্রে কিছু জনপ্রিয় কার্নাল আছে, সেগুলোই সাধারণ ক্ষেত্র 

রফিরে ব্যবহার করা হয়। আর ক্ষেত্রবিশেষে, নতুন আরো অপটিমাইজড কোনো কার্নাল তৈরি 
করে নেওয়া হয় ডেটাসেটের ধরনের ওপরে ভিত্তি করে। 


আমরা প্রথমেই একটি কার্নাল ফাংশন নিয়ে কাজ করব, একে বলা হয় গাউসিয়ান কার্নাল 
(ঞঞএ$গারা) 151761)। এই কার্নাল ব্যবহার করে, প্রতিটি ফিচার ডেটা বের করার সূত্র হচ্ছে - 


(গদি 


ধরা যাক, টেবিল 5.5.1 আমাদের ডেটাসেট। এখন, আমরা এই ডেটাসেটের ৫, 3) পয়েন্টটির 
জন্য গাউসিয়ান কার্নাল ব্যবহার করে নতুন ফিচার পয়েন্ট বের করব। আমাদের এই পয়েন্টের 
ইনপুট ডেটাতে ফিচার আছে দুটি, %! -₹ 2 ও %2 _ 3। 


এখন,আমরা যদি এই ডেটা পয়েন্টকে আমাদের গাউসিয়ান কার্নালে ইনপুট হিসেবে দিই, তাহলে 
আমাদের নতুন ওটি ফিচার তৈরি হবে, যেহেতু আমাদের ট্রেনিং ডেটার সংখ্যা 3টি। নতুন 
ফিচারগুলো হলো _ 


11772 _052)543-9)7 
৯67 292 ৪ 26. নি] 
11477 0-3)+03-4)7 
)ি 67 হঠর্ভ ল:67- হত নত 0 
11773 (25)5463-5)7 
[0 চে] 


এই হিসাবগুলোতে ০5.এর একটি মান আমরা ধরে নিয়েছি 11 সুতরাং আমরা নতুন তিনটি 
ভ্যালু পেয়ে গেলাম, 


মোশন লানিং আলগারদম 
(/7,/2,13) ৭ (1,0,0) 


1 
এরপর থেকে (2, 3) পয়েন্টটির বদলে এর নতুন ফিচার ভেষ্টর / _ যাহ অর 
0 
করতে হবে। নিচের ছবিটি দেখি ছেবি 5.3.4) : 


_ 11881 
[17292 20 


ছবি 5.3.4 
গ্রাফটিতে দেখা যাচ্ছে, ফিচার-এর মান "1" কেবল তখনই হয়, যখন আমরা /-অক্ষ ও %-অন্দ 
বরাবর যথাক্রমে 2 ও 3 একক নিচ্ছি। বাকি ডেটা পয়েন্ট দুটির ক্ষেত্রে ফিচারের মান শূন্যের 
কাছাকাছি। 


এ থেকে বোঝা যাচ্ছে, আমাদের এই কার্নালটি আসলে যা করছে তা হলো, এটি যে পয়েন্ট ইনপুট 
হিসেবে নিচ্ছে, তার সঙ্গে ট্রেনিং ডেটার সব পয়েন্টের সামঞ্জস্য (917711511) বের করছে। যখন 
ট্রেনিং ডেটার মধ্যেকার পয়েন্ট 2,3)-এর সঙ্গে, অর্থাৎ নিজের সঙ্গে সামঞ্জস্য খুঁজে বের করছে 
তখনই কেবল ফিচারের মান '?' হচ্ছে, অন্যান্য ক্ষেত্রে শূন্যের কাছাকাছি হচ্ছে। 


এখন ধরে নিই, আমাদের হাইপোথিসিস আগের মতোই - 


১০৬ 


অধ্যার ৫ : সাপোর্ট ভেক্টর মেশিন (589০765০007 11301176 - 5৮11) 


00,07৮ 4০9 
৮০) » 170 


শুধু যে পরিবর্তন আসবে, তা হলো (ইনপুট-এর সময় যা ফিচার হিসেবে ধরেছিলাম)-এর বদলে 
আমরা / নেতুন ফিচার ভেক্টর) নেব। 
তাহলে, আমাদের নতুন হাইপোথিসিস দাঁড়াবে _ 


00, 0/7/ 49 
/৮০) //71 0 


বাকি থাকল, আমরা &/ অর্থাৎ আমাদের প্যারামিটার সেট কীভাবে পাব এবং আমাদের 
অপটিমাইজেশন ফাংশন কী হবে? প্যারামিটার সেট পাব ঠিক আগের নিয়মে _ 


প্রথম প্যারামিটার ৮/০-এর জন্য, 

/0 -9/০_০5০7/0%) 

্ /0//) _ এ 10৮0০) ১0] ০০০ 
পরবর্তী প্যারামিটার 0 _ 1, 2, 3,...7)-এর জন্য, 

/) ₹/_ ০510) 

৪ 4 

৪570/) - 009) -90)-0-7৮% 

আর অপটিমাইজেশন ফাংশন আমাদের 1.514-এর ক্ষেত্রে ছিল _ 


170,0,90০%2))+ (৫-০)৫০০%০০)১)] + 2575 


যেখানে, £ ₹1//72%। এখন, -এর বদলে শুধু / ব্যবহার করব, যেহেতু এটি আমাদের নতুন 
ফিচার ভেক্টর। সুতরাং, নন-লিনিয়ার সাপোর্ট ভেক্টর মেশিনের জন্য আমাদের নতুন 
অপটিমাইজেশন ফাংশন দাঁড়ায় _ 

ী ঃ 0) (০০5500/7/০)) 1 নু 


সবশেষে আরো কয়েকটি বিষয় বিবেচনা করতে হবে : 


লহ 


১০৭ 


মেশিন লার্নিং আালগরিদম 
1. ০0 9-এর মান নেওয়ার ক্ষেত্রে, যদি ০-এর মান অনেক বড়ো নিই, তাহলে 
819, [7161 0৪19006 দেখতে পাব, অর্থাৎ ওভারফিটিং হওয়ার সম্ভাবনা থাকবে বেশি রঃ 
যদি ০-এর মান অনেক ছোটো নিই, তাহলে আমরা 17187 9185, [০০ দে 
পাব, অর্থাৎ আন্ডারফিটিং হওয়ার সম্ভাবনা থাকবে বেশি। নি 
2. ০২-এর মান অনেক বড়ো হলে, 7181 8195, 140৬ $91181006, আর মান অনেক ছোটো 
[,0%/ 7193, 1116)7 $৪18709। এর কারণ হচ্ছে, ০2-এর মান অনেক বড়ো হলে ফিচারধু 
51700119 ৬৪1/ করতে পারবে, আর ছোটো হলে তা পারবে না। 
3. গাউসিয়ান কার্নালের মতো আরো কিছু জনপ্রিয় কার্নাল আছে_ 
৬. 00191001719] [09106]: 
105,552) _ 0৮:25 + 1) [0 99869 0119011017191] 


৬. 09101591917 79019] 09515 [7001001) (030): 
70)9%2) » ৪77 154-%512 [0৮৯ 0, 07950 7 _ | 


৬. [,001906 [31 10917161: 
1217%21 
1004,22) ল ৪. 


*.1,177991-02109] (0 16176] 2911): 


_(00, 17249 
/৮০) - 172৯0 


এই ছিল আমাদের সাপোর্ট ভেক্টর-সম্পর্কিত যাবতীয় আলোচনা। 


১০৮ 


অধ্যায় ৬ : কে-নিয়ারেস্ট নেইবরস (99155 1618১075)] 


কে-নিয়ারেস্ট নেইবরস (4-13921:690 1361809015) বা 1থাখাখ হচ্ছে একটি জনপ্রিয় এবং খুবই 
সহজ ক্লাসিফিকেশন আযালগরিদম। এটি প্রথম ব্যবহার করেন ফিক্স (35917 ঢা%, 1904 _ 
1965) ও হজেস (09597111,45/50711090895]., 1922 - 2000) নামের দুজন বিজ্ঞানী 1951 
সালে। পরবর্তী সময়ে কভার পে1701199 1. 00৮০1, 1938 - 2012) ও হার্ট 0290713. 79170 
1941) নামে দুজন বিজ্ঞানী এটি উন্নতকরণের কাজ করেন। 


শ01095 14. 0০৮০1 (1938 - 2012) 66067 8. 187 (1941) 
ছবি 6.1 


আমি যখন আমার ছাত্রছাত্রীদের মেশিন লার্নিং পড়াই, তারা সবচেয়ে সহজে বুঝতে পারে এই 
আযালগরিদমটি। এটি খুবই সহজ একটি আযালগরিদম, কিন্তু এর বাস্তবিক প্রয়োগ যেদি সঠিকভাবে 
করা যায়) হতে পারে খুবই ফলপ্রসূ। সোজা কথায় যদি বোঝাতে চাই, এটি একটি ভোট গণনা 
করার মতো আযালগরিদম। 

ধরা যাক, আপনি কাচ্চি বিরিয়ানি খেতে চাইছেন হুট করে। আপনি আপনার তিনজন বন্ধুকে 
জিজ্ঞাসা করলেন কোথায় কাচ্চি বিরিয়ানি ভালো হবে? পুরান ঢাকার কোনো দোকানে, নাকি স্টার 
কাবাবের কাচ্চি? দুজন বন্ধু পুরান ঢাকার পক্ষে মতামত দিল, আর একজন দিল স্টারের পক্ষে। 
এখন তাহলে আপনি কোনটায় যাবেন? যেটায় বেশি মানুষ আপনাকে যেতে বলছে, অর্থাৎ পুরান 


১০৯ 


মেশিন লার্নিং আলগরিদম 
ঢাকীতে, সেটাতেই তো যাবেন, তাই নয় কি? যদি এটি বুঝে থাকেন, তাহলে এই আ্যালগযিদ 
আপনি বুঝে গেছেন অনেকখানিই। 


পরিচ্ছেদ ৬.১:1খাৰ-এর সাধারণ ধারণা 


নিচের ছবিটি দিয়ে বোঝা শুরু করি : 


& 01555 4 
আআ 01955 3 


ছবি 6.1.1 


ছবিতে দেখুন, দুটি ভিন্ন ভিন্ন আকৃতির ডেটা পয়েন্ট আছে, ত্রিভুজ ও বর্গ 

আর বর্গাকৃতি দিয়ে বিড়ালের ছবি)। ছবি অনুযায়ী, প্রতিটি ডেটার জন্য দুটি করে ফিচার নেওয়া 
জর চা সাররোনিরারনাটিডুতালারাটি এটি হচ্ছে আমাদের অজানা ডেটা 
রা এখন, আমাদের যেটি করতে 
৭ ছা পয়েন্টটিকে ক্লাসিফাই করতে হবে, অর্থাৎ বলতে হবে এটি 


কীভাবে পুরো কাজটি বিস্তারিত 
৬৮০১-া০৯ রিত আলোচনার আগে আমি খুব সংক্ষেপে বলে দিই, কী 
ধরা হয় ৫,3,5,7.. সী গজ নেব। সাধারণত 1-এর মান বেজোড় সং 
এ এ ধরুন হর 
টি 


১১০ 


অধ্যার ৬: কে-নিয়ারেস্ট নেইবরস (-4৩215501618/৮075) 
আমরা মুশকিলে পড়ে যাব _ নতুন পয়েন্টটিকে তখন আমরা কী হিসেবে মানব? কুকুর, নাকি 
বিড়াল? এই মুসিবত থেকে যাতে আমরা বিরত থাকতে পারি, তাই €-এর মান সাধারণত বেজোড় 
সংখ্যা নেওয়া হয়। 


এরপরে আমাদের অজানা ডেটা পয়েন্টের আশপাশের সব জানা ডেটা পয়েন্ট থেকে সবচেয়ে 
কাছের 1-সংখ্যক ডেটা পয়েন্ট আমরা বিবেচনা করব আমাদের পরবর্তী ধাপের জন্য। ওপরের 
চিত্রে দেখুন, % - 3-এর জন্য ভেতরের ছোটো বৃত্ত এবং £ - 5-এর জন্য বাইরের বড়ো বৃত্তটি 
আঁকা হয়েছে। বড়ো বৃত্তের ভেতরে একটি বিন্দু অতিরিক্ত আছে, ওটি নিয়ে আপাতত মাথা 
ঘামানোর দরকার নেই। 


এখন ছোটো বৃত্তের ভেতরে দেখুন তিনটি ডেটা পয়েন্ট রয়েছে, যেগুলোর মধ্যে দুটি বর্গ ও একটি 
ব্রিভুজ। সুতরাং বর্গের সংখ্যা বেশি, অর্থাৎ বিড়ালের সংখ্যা বেশি। এর মানে হচ্ছে 4 _ 3 নিয়ে 
আমরা দেখতে পাই যে অজানা ডেটা পয়েন্টটির সঙ্গে বিড়ালের সামঞ্জস্য বেশি, তাই এর আকৃতি 
তারকা থেকে বর্গ করে দিয়ে একে বিড়াল বলে বিবেচনা করা হবে। 


একইভাবে, বড়ো বৃত্তের ভেতরে দেখুন ছয়টি ডেটা পয়েন্ট রয়েছে, যার মধ্যে চারটি ত্রিভুজ এবং 
দুটি বর্গ। সুতরাং ত্রিভুজের সংখ্যা বেশি অর্থাৎ কুকুরের সংখ্যা বেশি। এর মানে হচ্ছে“ - 5 
নিয়ে আমরা দেখতে পাই যে অজানা ডেটা পয়েন্টটির সঙ্গে কুকুরের সামঞ্জস্য বেশি, তাই এটির 
আকৃতি তারকা থেকে ব্রিভূজ করে দিয়ে একে কুকুর বলে বিবেচনা করা হবে। এভাবেই মূলত 
[বো আলগরিদম কাজ করে। 


তাহলে এর মূল ধাপ চারটি _ 


* অজানা ডেটা পয়েন্ট থেকে বাকি সব ডেটা পয়েন্টের দূরত্ব বের করতে হবে। 

* দূরত্রে মান অনুযায়ী ছোটো থেকে বড়ো আকার (বো, £5০97178 07067)-এ ডেটা 
পয়েন্টগুলো সর্ট 5০7) করে নিতে হবে। 

সর্ট করা ডেটা পয়েন্ট থেকে প্রথম ?-সংখ্যক পয়েন্ট নিতে হবে। 

এই [-সংখ্যক ডেটা পয়েন্টের মধ্যে যে ক্লাসের পয়েন্ট সবচেয়ে বেশি সংখ্যকবার আছে, 
অজানা ডেটা পয়েন্টটিকে সেই ক্লাসে হিসেবে চিহ্নিত করতে হবে। 


পরিচ্ছেদ ৬.২ :উদাহরণ 


এখন আমরা একটি উদাহরণ দিয়ে পুরো আযালগরিদমটির বিস্তারিত বুঝব। নিচের চার্টটি দেখি 

(টেবিল 6.2.1)। এই চার্টে ওপরের চিত্রের ডেটা পয়েন্টগুলোর ভ্রিভুজ ও বর্গ) 2 এবং 2 

ফিচার ভ্যালুগুলোর মান দেওয়া আছে। সেই সঙ্গে আমরা কোন ডেটা পয়েন্ট কোন ক্লাসের 
১১১ 


মেশিন লার্নিং আলগরিদম 
অন্তর্ভূক্ত, সেটিও শেষ কলামে লিখে দিয়েছি। এখানে 1 মানে কুকুর 
ক কুকুর করিভুজ), 0 মানে বিড়দ 


টেবিল 6.2.1 


অজানা ডেটা পয়েন্টের ফিচারে দুটির মান হচ্ছে (2.2, 3)। আমাদের এখন বের করতে হবে যে 
এই অজানা ডেটা পয়েন্ট কুকুর হবে, নাকি বিড়াল। 

সেজন্য আমরা এখন যেটি করব, সবার প্রথমে 2.2, 3) পয়েন্ট থেকে টেবিলের সব ডেটা পয়েন্টের 
মধ্যেকার দূরত্ব বের করব। দূরত্ব বের করার জন্য আমরা ইউক্রিভীয় দূরত্বের সূত্র প্রয়োগ করব। 
দুটি পয়েন্ট 04,)1) ও (%,92)-এর মধ্যেকার ইউক্লিডীয় দূরত্ব হচ্ছে, 


404. _%2)2 47 00 _25)2 
এখন তাহলে আমরা সব ডেটা পয়েন্ট থেকে (৫.2, 3) পয়েন্টের ইউর্লিডীয় দূরত্ব বের করে ফেলি: 


10150291709 [700100019 [015021108 | 501 
2106 থা 


০:2-2,5হ52.8_3)হ | 200998 [ 5 ] 
15-522570-3)হ ূ 2.05913 | 6 
ভিভঠিহ65-3হ1 2968161] ৪ 


১১২ 


অধ্যায় ৬: কে-নিয়ারেস্ট নেইবরস (েশেতযতগ: 21১5) 
এ এঠে_হ2)+55-উ1 1.51327 
২2:7_ 2 হ755-$হ 1 0.70711 
407 হঠেহক্ঠহ] 053852 

4.7 _52:257-39হ1 1:11803 
এতটা 2.41661 
২0:27 2.2)25+6-2-3)হ 
0.3 2:25 6.2-3)হ 

টেবিল 6.2.2 


এখন আমরা এই ডেটা পয়েন্টগুলোকে দূরত্বের মানে ছোটো থেকে বড়ো ক্রম বা ত্যাসেন্ডিং 
অর্ডার (95097017% 07007)-এ সর্ট করি। সর্ট করার পরে টেবিলে ডেটা পয়েন্টগুলোর অবস্থান 
ওপরের টেবিলে 901%13811. হিসেবে দেওয়া আছে। সেখান থেকে ডেটা পয়েন্টগুলো নিয়ে যদি 
আমরা একটি আলাদা টেবিলে একই ক্রমে সাজাই, তাহলে নিচের টেবিলের মতো দাঁড়াবে : 


টেবিল 6.2.3 


এখন আমরা ?.- 3 ধরে নিলে, আমরা সবচেয়ে কাছের তিনটি বিন্দু নিয়ে কাজ করব। ওপরের 
আমরা পেয়ে যাচ্ছি, যা যথাক্রমে হলো 0, 1, 0র্থাৎ দুটি বিড়াল ও একটি কুকুর ধেরে নিয়েছিলাম রঃ 


১১৩ 


ক 


মেশিন লার্নিং আ্যালগরিদম 
1 _কুকুর, 0 ₹ বিড়াল)। যেহেতু বিড়ালের সংখ্যা বেশি, তাই আমাদের ৫.2, 3) পয়েন্ট 
ক্লাস হিসেবে আমরা 0 অর্থাৎ বিড়াল হিসেবে চিহ্নিত করব। | 


আবার যদি, 14 - 5 ধরে নিই, তাহলে আমরা সবচেয়ে কাছের পাঁচটি বিন্দু নিয়ে কাজ করব 
ওপরের টেবিল থেকে আমরা প্রথম পাঁচ সারির ডেটা পয়েন্ট নিলেই সবচেয়ে কাছের ছয়টি বিদ্ু 
ক্লাস আমরা পেয়ে যাচ্ছি, যা যথাক্রমে হলো 0, 1, 0, 1, 1 অর্থাৎ দুটি বিড়াল ও তিনটি কুকুর 
সুতরাং, এই ক্ষেত্রে তাই আমাদের (2.2, 3) পয়েন্টটির ক্লাস হিসেবে আমরা | অর্থাৎ কৃকুর 
আ্যাসাইন করব। 


শেষ করার আগে, একটি বিষয় জেনে রাখা ভালো। যদি [-এর মান খুব ছোটো হয়, তখন ব্যাপারটি 
এরকম দাঁড়ায় যে কাছাকাছি অল্প দু-তিনটি ডেটা পয়েন্ট দেখেই আমরা সিদ্ধান্তে পৌছে যাই, এর 
ফলে বিভিন্ন ধরনের 7019 বোজে ডেটা, যেগুলো আমাদের ডেটাসেটের কোনো অংশ নয 
ভুলভ্রান্তি) দিয়ে আমাদের সিদ্ধান্ত বায়াসড (৮956৭) বা পক্ষপাতদুষ্ট হয়ে যেতে পারে। খুব 
সহজভাবে চিন্তা করুন, যদি আপনি মাত্র তিনজন মানুষকে জিজ্ঞাসা করেন যে, চুরি করা কি 
ভালো? এবং দুর্ভাগ্ক্রমে ওই তিনজনের মধ্যে দুজন যদি হয় চোর এবং তারা আপনাকে 'হাঁ' 
বলে এবং বাকি একজন 'না' বলে, তখন আপনি কী করবেন? যেহেতু দুজন 'হ্যা' বলেছে, সেহেতু 
সেটিই আপনি মেনে নেবেন এবং হয়তো চুরি করা ভালো কাজ মনে করবেন, তাই না? তার মানে 
কী দাঁড়াল? এখানে চোর দুজনকে আমরা 70156 ডেটার সঙ্গে তুলনা করতে পারি। তাই, ॥-এর 
মান খুব ছোটো হলে 7019০ ডেটা দিয়ে প্রভাবিত হওয়ার সম্ভাবনা বেশি থাকে। ফলে ভ্যারিয়েম 
বেড়ে যায়, বায়াস কমে যায়। 


একই ভাবে, যদি -এর মান আমরা অনেক বেশি নিই, ধেরুন 1 1000), তাহলে আবার 
আর তাই, ॥-এর মান নির্ধারণ করার সময় ভারসাম্য বজায় রাখতে হয়, যাতে খুব বড়োও না হা, 
আবার খুব ছোটোও না হয়। 


[এর অপটিমাল 0০900191) মান নেওয়ার একটি উপায় হচ্ছে, মোট যত ডেটা আছে, (ধরি 7. 
সংখ্যক) তার বর্গমূলের মানকে আমরা 1-এর অপটিমাল মান হিসেবে নিতে পারি। যদি, ধরা যাক, 
7 _ 150 হয়, তবে 7 ৯ 150 ২ 12.28 5 13 নিতে পারি (যেহেতু 1-এর মান বেজোড় হবে, 
তাই আমরা 12 নেব না, 13 নেব)। 


এই ছিল ধাধাখ আযালগরিদমের বিবরণ। এটি আসলে খুবই ছোটো এবং সহজ একটি 


ক্লাসিফিকেশন আ্যালগরিদম। আশা করি, সবাই বুঝতে পেরেছেন কীভাবে [াখাং আযালগরিদমের 
সাহায্যে আমরা ক্লাসিফিকেশন করতে পারি। 
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অধ্যায় ৭: কে-মিনস ক্লাস্টারিং 0৫-1459105 01050911705) ] 


কে-মিনস ক্লাস্টারিং আযালগরিদমটি প্রথম ব্যবহার করেন ম্যাককুইন (087765 149000961) 
নামের একজন বিজ্ঞানী 1967 সালে, যদিও মূল ধারণাটি ছিল হ্যগো স্টেইনহউস (108০ 
9191007503, 1887 - 1972) নামে একজন বিজ্ঞানীর ৫1957 সাল)। ম্যাককুইন ছিলেন 
ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়ের পরিসংখ্যান বিভাগের একজন অধ্যাপক। 


সূল আ্ালগরিদমে যাওয়ার আগে প্রথমেই আমাদের বুঝে নিতে হবে ক্রাম্টারিং আসলে কী? 
্রাস্টারিং হচ্ছে এক ধরনের আনসুপারভাইজড 007580675550) মেশিন লার্নিং পদ্ধতি, যেটি 
আমরা প্রথমেই আলোচনা করেছি। অর্থাৎ, এখানে আমাদের ট্রেনিং ডেটার কোনো লেবেল থাকবে 
না। আনলেবেলড 09112)6190) ট্রেনিং ডেটা দিয়ে মেশিনকে ট্রেনিং দেওয়া হবে এবং মেশিন 
(419১9190 ডেটা সম্পর্কে আমরা প্রথমেই ধারণা দিয়েছিলাম পরিচ্ছেদ ২.২-এ)। তারপরে যে 
সব ডেটা পয়েন্ট একই প্যাটার্নের, তাদেরকে একটি গুচ্ছ/রাস্টারে নিয়ে নেবে এই আ্যালগরিদম। 
এই হচ্ছে সাধারণভাবে বলতে গেলে ক্রাস্টারিং। নিচের ছবিটি দেখি : 


ছবি 7.1 


ছবিতে, প্রতিটি ক্রস চিহু হচ্ছে একটি ডেটা পয়েন্ট। সব পয়েন্টই যেহেতু এখানে সাদাকালো, 
তাহলেকিন্তু সবার চেহারা একই হয়ে গেল। এদের এখন আলাদা করা কিন্ত মুশকিল। এখন যদি 
বলা হয়, এই সাদাকালো পয়েন্টগুলোকে ডেটার বিন্যাস থেকে কোনো প্যাটার্ন বের করে তার 
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মেশিন লার্নিং আযালগরিদম 
ওপরে ভিত্তি করে কতগুলো গুচ্াকরাস্টারে ভাগ করতে, যাতে একই ধরনের প্যাটার্নের সব ডেঁট 
একসঙ্গে থাকে, তখন আপনারা কী করতেন? 


আমার আন্দাজ বলছে, আপনারা অনেকটা এভাবে সবগুলো ডেটা তিনটি গুচ্ছ/ক্লাস্টারে ভাগ করে 
ফেলতেন, তাই না? ঠিকই আছে আপনাদের ভাগ করা। আমি হলেও এভাবেই করতাম। 


এখন কথা হচ্ছে, এই ভাগ করাটা আমরা কীসের ভিত্তিতে করলাম? আমরা এই ভাগটা করলাম 
চোখের আন্দাজে। যে পয়েন্টগুলো একে অপরের কাছাকাছি, তাদেরকে আমরা একই ক্লাস্টারে 
নিয়ে নিয়েছি। এখন কথা হচ্ছে, আমরা না হয় চোখের আন্দাজে ছবির দিকে তাকিয়ে বুঝতে 
পারছি যে কোন পয়েন্ট কোন ক্লাস্টারের ভেতরে যাবে, কিন্তু সমস্যা হচ্ছে কম্পিউটারকে সেটি কী 
করে বোঝাই? 


সেজন্যই আমাদের এখন কোনো একটি গাণিতিক পদ্ধতিতে যেতে হবে, যাতে করে আমাদের 
কম্পিউটার হিসাবনিকাশ করে বুঝে ফেলতে পারে কোন পয়েন্ট কোন ক্রাস্টারে যাবে। এই 


ক্লাস্টারিংয়ের জন্য আমরা খুব জনপ্রিয় একটি আযালগরিদম পড়ব, যার নাম হচ্ছে 1-116815 
01051611081 


পরিচ্ছেদ ৭.১: কে-মিনস ব্লাস্টারিংয়ের সংক্ষিপ্ত গাণিতিক বর্ণনা 


বিস্তারিত বর্ণনায় যাওয়ার আগে, একটু সংক্ষেপে ব্যাখ্যা করে নিই যে কাজটি আসলে কীভাবে 
হবে। আমাদের যেটি করতে হবে, সেটি হচ্ছে প্রথমে আমাদেরকে যে ট্রেনিং ডেটা দেওয়া থাকবে, 
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অধ্যার ৭: কে-মিনস ক্রাস্টারিং (-1152775 01005067702) 
দেখান থেকে ঠিক করে নিতে হবে যে আমরা কয়টি ্লাস্টার নিয়ে কাজ করতে চাই। ধরা যাক, 
আমরা সংখ্যক করা্টার নিয়ে কাজ করতে চাই। প্রতিটি ক্লা্টারের একটি কেন্দ্রবিন্দু বা সেন্টার 
পয়েন্ট থাকবে, যেটাকে আমরা বলব সেনট্রয়েড 0০5/001)। এই সেন্ট্রয়েডের মান হবে ওই 
রাল্টারে যতগুলো পয়েন্ট আছে সবগুলোর গড় মান। 


আমরা শুরুতে প্রতিটি সেন্ট্রয়েডকে র্যানডমলি একটি করে মান দিয়ে দেব। এরপর, আমাদের 
ট্রেনিং ডেটা থেকে আমরা একটি করে ডেটা পয়েন্ট নেব এবং 1০সংখ্যক সেন্ট্য়েডের প্রত্যেকটি 
থেকে সেই ডেটা পয়েন্টের দূরত্ব মাপব। যেই সেন্ট্রয়ে সবচেয়ে কাছে থাকবে, ওই ডেটা 
পয়েন্টকে সেই সেন্ট্য়েডের জন্য যেকলা্টার আছে তাতে ত্যাসাইন করব। এভাবে আমরা একটি 
করে ডেটা পয়েন্ট নেব এবং তাকে কোনো-না-কোনো ক্রাস্টারে আ্যাসাইন করব। 


দেই সঙ্গে আরো একটি কাজ চলবে, সেটি হচ্ছে প্রতিবার ক্লান্টারে একটি করে পয়েন্ট যুক্ত 
হওয়ার পর, আবার নতুন করে ওই রাস্টারে থাকে সবগুলো পয়েন্টের গড় নিতে হবে। এই নতুন 
গড় ই হবে তখন ওই ক্লাস্টারের জন্য নতুন সেন্টয়েড, যেটি আমাদের প্রতিবার হিসাব করতে 


হ্‌বে। 
অর্থাৎ আমাদের কাজ হবে দুটি -ক্লাস্টার আযাসাইনমেন্ট এবং সে্টয়েড আপডেট। 


ধরা যাক, আমরা 11-সংখ্যক ট্রেনিং ডেটার প্রতিটি পয়েন্ট একটি করে কলাস্টারে আযাসাইন করব। 
আমাদের 1-সংখ্যক ক্লাস্টার আছে। আমরা একটি আযারের কথা চিন্তা করি, যার নাম ০ এবং 
সাইজ হচ্ছে 7 । এই ত্যারেতে 77-সংখ্যক উপাদান থাকবে। আ্যারের 1-তম উপাদান হবে 1-তম 
ট্রেনিং ডেটাকে 1 থেকে 1-এর মধ্যে কত নন্বরক্লাস্টারে ত্যাসাইন করা হয়েছে সেই সংখ্যাটি। 


ধরা যাক, আমাদের প্রথম ডেটা পয়েন্ট হলো «, যাকে 2 নম্বর ক্রাস্টারে আযাসাইন করা হয়েছে। 
সুতরাং ৫৫) হবে 2 যেখানে 0) দিয়ে প্রথম ডেটা পয়েন্টকে নির্দেশ করা হচ্ছে। একইভাবে 
যদি দ্বিতীয় ডেটা পয়েন্টকে 4 নম্বর ক্লাস্টারে আযাসাইন করা হয়, তাহলে ০৫) হবে 4। কোনো 
ডেটা পয়েন্টকে !-সংখ্যক র্লাম্টারের মধ্যে সেই ক্লাস্টারকেই ত্যাসাইন করা হবে, যে ক্লাস্টারের 
সন্য়েড ওই ক্রান্টারে আযাসাইন করা সব পয়েন্টের মানের গড়মান) থেকে ওই ডেটা পয়েন্টের 
দূরত্ব অ্য সব ক্লাস্টারের সেনট্রয়েডের তুলনায় সবচেয়ে কম হবে। আমরা যদি 7-তম ক্লাস্টারের 
সেট্রয়েডকে / দিয়ে চিহিত করি, তাহলে 1-তম ট্রেনিং ডেটা %০) এবং /-তম ক্লাস্টারের 
সন্ট্যয়েড /%-এর মধ্যে দূরত্ব হবে 110) _1%|| যেখানে 1 এ 57 


এই গেল আমাদের প্রথম ধাপ - ক্লাস্টার আযাসাইনমেন্ট। এরই সঙ্গে আরেকটি ধাপ আছে, সেটি 
হচ্ছে সে্রয়েডের মান আপডেট করা। প্রতিবার একটি করে নতুন ডেটা পয়েন্ট ৫) কোনো একটি 
বাস্টার 1-তে আ্যাসাইন করার পর, সেই ক্লাস্টারের সেন্ট্রয়েড আপডেট করতে হবে। নতুন 
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ক 


মেশিন লার্নিং আযালগরিদম 
সেন্য়েডের মান হবে ওই ক্লন্টারে আযাসাইন করা সব ট্রেনিং ডেটার মানের সেদ্যত্যাসাইনকা 
নতুন ডেটা পয়েন্টসহ) গড়। 
আমরা যদি এখন এর জন্য কস্ট ফাংশন লিখতে যাই, সেটি তাহলে হবে এরকম _ 


রত 
0000), 00), 03), ... ৫0), 141,112, //3, .../48) ঠা 1০ - 1812 


717 72247770677 01 17187105701 
072171670 ০১০7117125 085657 067:00445 
এবং অবজেকটিভ ফাংশন হবে, 
77%711770726 ) (0৫), 0৫), 03), ... 007),/41, 112,103, ...1৫) 
0০৫), /) 
পরবর্তী পরিচ্ছেদে উদাহরণ দিয়ে কে-মিনস ক্লাস্টারিং আরে বিস্তারিত আলোচনা করা হয়েছে। 
উদাহরণটি দেখলেই অনেকখানিই পরিক্ষার ধারণা পাওয়া যাবে। 
পরিচ্ছেদ ৭.২: উদাহরণ 


যাক, অনেক গণিত হলো, এখন চলুন একটি ছোটো উদাহরণ দিয়ে দেখি কীভাবে এই কে-মিনস 
ক্লাস্টারিং কাজ করে। 


টেবিল 7.2.1-এর ডেটা একটি গ্রাফে প্লট করলে অনেকটা গ্রাফ 
দেখুন, আমরা যদি এই ডেটা সেটের ওপরে কে-মিনস ব্লাস্টারিং 
হবে? আমরা যে-কোনো মান দিয়েই শুরু করতে পারি। ধরে নিই £-_? চিত্র 
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অধ্যায় ৭: কে-মিনস ক্লাস্টারিং 0-015813 010551108) 


যাচ্ছে ক্লান্টার 2টি হবে, তাই দুটি ক্াস্টার দিয়েই দেখাচ্ছি। তবে 7-এর মান কত হলে সবচেয়ে 
ভালো হবে সেটি বের করার একটি উপায় আছে, সেটি পরে আলোচনা করব)। 


যদি 4 ₹ 2 নিই, তাহলে আমাদের দুটি ক্লাস্টারের জন্য দুটি সেনটরয়েড হবে //ঃ ও /। এদের 
মান হিসেবে শুরুতে আমরা যে-কোনো আনুমানিক মান ধরে নিতে পারি। তবে ভালো বুদ্ধি হচ্ছে 
আমাদের ট্রেনিং ডেটা পয়েন্টগুলো মধ্যে থেকে র্যানডমলি যে-কোনো দুটি প়েন্টকে সেনট্রয়েড 
হিসেবে ধরে নেওয়া। 
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তাই, হিসাবের সুবিধার্থে আমরা ধরে নিই যে আমাদের 4 - 0,4) এবং /2 _ (5,2) | এখন, 
প্রতিটি ডেটা পয়েন্ট থেকে আমরা এই দুটি সেন্্রয়েডের দূরত্ব বের করব এবং যেই সেনট্রয়েড 
থেকে দূরত্ব কম, আমরা ওই পয়েন্টকে সেই সেনট্রয়েডের ক্লাস্টারে আ্যাসাইন করব এবং সেই সঙ্গে 
সেষ্ট্রয়েডের মান আপডেট করব। 


এখন, প্রথম ট্রেনিং ডেটা পয়েন্ট (2, 4)-এর জন্য, 

1 থেকে দুরত্ব _ 0 

/ থেকে দূরত্ব _ ২ _2)হ + 2: 42 _ 3.60555 
সুতরাং আমরা ৫2, 4) পয়েন্টকে 1 নম্বর ক্লাস্টারে আাসাইন করব এবং নতুন সেন্ট্রয়েড হবে ৫, 
4)। যেহেতু ? নম্বর ক্লাস্টারে মাত্র একটি পয়েন্টই আছে, তাই তার গড় মানও এটিই হবে। 


১১৯ 


মেশিন লার্নিং আযালগরিদম 
এখন, দ্বিতীয় ট্রেনিং ডেটা পয়েন্ট (2, 3)-এর জন্য, 
1 থেকে দূরত্ব _ %(2- 2)2+ ৫3) ৯ 
/ থেকে দূরত্ব _ ডৈ_2)হ5+0:_ 3) _ 3.16 


সুতরাং আমরা € 3) পয়েন্টকেও | নম্বর ক্লাস্টারে আ্যাসাইন করব, যেহেতু ৫ 3) থেকে. 
এর দূরত্ব সর্বনিম়। সুতরাং, 1 নম্বর ক্লাস্টারে পয়েন্ট আছে এখন দুটি : ৫, 4) ও (2,3) সুজা 
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নতুন সেনট্রয়েড হবে, (8:,+:3) _ 2,3.5)। সুতরাং এখন থেকে /. - (2,3.5)। 
এরপর তৃতীয় ডেটা পয়েন্ট (5, 2) এর জন্য, 

| থেকে দূরত্ব 45275 2)হ ₹ 3.35410 

&হ থেকে দূরত্ব 5 2+হ-হ)হ-0 


সুতরাং আমরা (5, 2) পয়েন্টকে 2 নম্বর ক্লাস্টারে আযাসাইন করব, যেহেতু (5, 2) থেকে /2-এর 
দূরত্ব সর্বনিয়। 2 নন্বর ক্লাস্টারের নতুন সেন্্রয়েড হবে (5, 2)। যেহেতু 2 নম্বর ক্ান্টারে মাত্র 
একটি পয়েন্টই আছে, তাই তার গড় মানও এটিই হবে। 


এরপর চতুর্থ ডেটা পয়েন্ট €, 2)-এর জন্য, 
/ থেকে দূরত্ব -২/2._6)5+ 3.5 _ 2) _ 4-27200 
/ থেকে দূরত্ব _৬ভৈ-6)2+ 2-2)হ ৯! 


সুতরাং আমরা €, 2) পয়েন্টকেও 2 নম্বর ক্লাস্টারে আযাসাইন করব, যেহেতু €6, 2) থেকে | 
এর দূরতৃ সর্বনিয়। সুতরাং, 2 নম্বর ক্লাস্টারে পয়েন্ট আছে এখন দুটি : (5, 2) ও €6,2)। সুতরাং 
নতুন সেন্রয়েড হবে, (5৫,242) _ 5.5,2)। সুতরাং, এখন থেকে /2 ₹ ড.5,2)। 


এরপর পঞ্চম ডেটা পয়েন্ট (5, 2.5)-এর জন্য, 
/£ থেকে দূরত্ব -৬০_ 5)5+ 3.5 -_2.5)হ ল 316228 
/£2 থেকে দূরত্ব -4/6.5_5)2+ 0 _2.5)হ _ 0.50710 


সুতরাং আমরা (5, 2.5) পয়েন্টকেও 2 নন্বর ্লান্টারে ত্যাসাইন করব, যেহেতু 5, 2.5) থেকে 
/০-এর দূরত্ব সর্বনিয়। সুতরাং, 2 নম্বর কলাস্টারে পয়েন্ট আছে এখন তিনটি : 5, 2), 6১2) € 


১২০ 


অধ্যায় ৭: কে-মিনস ক্লাস্টারিং (16275 01150617708) 
ডে, 2.5)। সুতরাং, নতুন সেন্্রয়েড হবে, (১:52,2+2:) _ 5.33,2-17)। সুতরাং এখন 
/2 _ 6-33,2.19)। 
সবশেষে, ষষ্ঠ ডেটা পয়েন্ট (2.5, 3.5)-এর জন্য, 
1 থেকে দূরত্ব _ 402 2.5)2+ 3.5 _3.5)2 _ 0.5 


1 থেকে দূরত্ব _ 46.33 _ 2.5)2+ 2:17 _ 3.5) _ 2:49799 
সুতরাং (2.5, 3.5) পয়েন্টকে আমরা ? নম্বর ক্াস্টারে আযাসাইন করব, যেহেতু /. থেকে 025, 
3.5)-এর দূরত্ব সর্বনিয়। সুতরাং এখন, 1 নম্বর ্লাস্টারে পয়েন্ট আছে তিনটি : ৫, 4), ৫, 3) ও 
05,3.5)। সুতরাং নতুন সেন্ট্রয়েড হবে, (2+2+25,4:432) ₹ 2.17,35)। সুতরাং, এখন 
101 5 (2.17, 3.5)। 
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এখন যদি ওপরের গ্রাফটি দেখি, তাহলে যে বর্গাকৃতির চিহৃ দুটি দেখব, সে দুটি হচ্ছে আমাদের 
দুটি ক্লাম্টারের নতুন সেক্্রয়েড। বাঁ দিকের ব্রাস্টারটি হচ্ছে 1 নম্বর ক্লাস্টার এবং ডান দিকের 
ব্লা্টারটি হচ্ছে 2 নম্বর ব্লাস্টার। 


আগে বলেছিলাম যে, [-এর মান কীভাবে নির্ণয় করতে হয় সে সম্পর্কে বলব। ব্যাপারটি হচ্ছে, [- 
এর মান হিসেবে কোনটি ব্যবহার করলে কস্ট সবচেয়ে কম হবে, সেটি সরাসরি বের করার জন্য 
কোনো গাণিতিক সূত্র নেই। তাই যেটি করতে হবে, ?-এর মান 2, 3, 4, 5... ইত্যাদি ধরে দেখতে 


১২১ 


-স্্ছ 


মেশিন লার্নিং আালগরিদম ্‌ 
হবে যে 1-এর কোন মানের জন্য কন্ট ফাংশন কনভার্জ করছে, অর্থাৎ সরবনিয় মান দিচ্ছে। ঘট : 
একটি ট্রায়াল আ্যান্ড এরর পে481 0170 01701) পদ্ধতি হবে, এই আর কি। খুব ভালো হয়, যদি 
আপনারা 1।-বনাম-কন্ট-এর একটি গ্রাফ তৈরি করে নিতে পারেন, তাহলে আপনাদের ব্যাপারটি 
উপলব্ধি করতে সুবিধা হবে। 
আশা করি, সবাই বুঝতে পেরেছেন কীভাবে কে-মিনস ক্লাস্টারিং আযালগরিদমের সাহায্যে আমরা 
ক্লাম্টারিং করতে পারি। 


অধ্যায় ৮: নাইভ বেইজ ক্লাসিফায়ার (91৮5 7293 
019551981-) 


আশা কান, আপনাগ। সবাই উচ্চমাধ্যমিক . 
খণতে বেইজ থিওগেম গড়েছেন। আমার 
মত|ুগ মনে পড়ে, উ/মাধামিক গণিত বইয়ে 
নট ৭০7 ৩11 ৭1 মে/শন ইত]দি সম্পর্কিত 
(কনে একটি বিখ|ত অন্ধ ছিল, যেটি এই 
বেইঙ থিওরেম দিয়ে করতে হতো। ওই অঙ্ক 
(খলেই আমার ঘাম ছুটে যেত। ওই অধ্যায়ের 
অদ্ধওলে। ঝরতে আমি ভীষণ ভয় পেতাম। আর 
তার কারণ একটিই, আমি বুঝতাম না কী করছি, 
কেন কর্মাহছ। এই অধা।য়ের অঙ্কগুলো না বুঝে 
অনেকটা মুখস্ত করার মতো করেছিলাম, সে 
কারণেই ভয় পেতাম। 


৬০৯ 


আশা কারি, আপনারা সবাই উচ্চমাধ্যমিক ছবি 8.1 :10101795 13995 (1702-1701) 
গণিতে বেইজ থিওরেম পড়েছেন। আমার যতদূর মনে পড়ে, উচ্চমাধ্যমিক গণিত বইয়ে নষ্ট বনু 
তর ক্রা মেশিন ইত্যাদি সম্পর্কিত কোনো একটি বিখ্যাত অঙ্ক ছিল, যেটি এই বেইজ থিওরেম 
দিয়ে করতে হতো। ওই অঙ্ক দেখলেই আমার ঘাম ছুটে যেত। ওই অধ্যায়ের অস্কগুলো করতে 
আমি ভীষণ ভয় পেতাম। 


আর তার কারণ একটিই, আমি বুঝতাম না কী করছি, কেন করছি। এই অধ্যায়ের অঙ্কগুলো না 
বুঝে অনেকটা মুখহ্‌ করার মতো করেছিলাম, সে কারণেই ভয় পেতাম। 


সম্তাব্যতা (১০990)111) এখন আমার অনেক প্রিয় একটি বিষয়। এটি আমার পড়তেও ভালো 

শাগে, পড়াতেও ভালো লাগে। আর এই নাইভ বেইজ ক্লাসিফায়ার বুঝতে হলে আমাদেরকে উচ্চ 

মিদারা রাানিওর এবং সেই সঙ্গে সম্তভাব্যতার কিছু জিনিস একটু ঝালাই করে 
হবে। 


কিন্তু তার আগে একটু বলে নিই, বেইজ থিওরেমের জনক রেভারেন্ড থমাস বেইজ োণ00795 
8০৬৬১, 1702-1761)। তাঁর নামেই এর নামকরণ। থমাসের কিছু অসমাপ্ত গবেষণার হাত ধরেই 
হয় এই থিওরেমের। 


১২৩ 


মেশিন লার্নিং আযালগরিদম 


পরিচ্ছেদ ৮.১: সন্তাব্যতার টুকিটাকি 

সি ৭২ ৪, 
খুব সহজ করে বলতে গেলে, সম্ভাব্যতা হচ্ছে কোনো ঘটনা ঘটার সম্ভাবনার একটি 
প্রকাশ। যেখানেই আপনারা সম্ভাব্যতা পাবেন, সেখানেই দেখবেন তার সঙ্গে কোনো সংখ্যা ও 
গাণিতিক প্রকাশ জড়িত। যদি বলি, আজকে বৃষ্টি হওয়ার সম্ভাব্যতা 70%, সেটি গাণিতিক 
সন্ভাব্যতার একটি উদাহরণ। এখন, এই সম্ভাব্যতার মান 0 থেকে 1-এর ভেতরে যে-কোনো সংখ্যা 
হতে পারে। 0 মানে ঘটনাটি ঘটার কোনো সম্ভাবনাই নেই, আর | মানে ঘটনাটি ঘটবেই, কোনো 
নড়চড় হবে না। সন্তাব্যতা 0.5 মানে অর্ধার্ধি সম্ভাবনা আছে ঘটনাটি ঘটার। যেমন, আপনি যদি 
একটি কয়েন ছুড়ে মারেন ওপরে টস করার জন্য, 50% সম্ভাবনা আছে 17690 আসার, আর 50% 
সম্ভাবনা আছে 151] আসার। অর্থাৎ 7680 আসার ৮7০00801110 0.51 


এই গেল, সম্ভাব্যতার মান কত থেকে কত হতে পারে, তার একটি বর্ণনা। এখন আসি কীভাবে 
সম্ভাব্যতা নির্ণয় করবেন সে উপায়ে। সম্ভাব্যতা বের করার সূত্র হচ্ছে _ 
114712701 152125 000750. €7 17601" 01 12078062৫ 01/007716 

1721)01 0) 60601 27/8775 ০০০50 07651760666 01175702062 0০0779 
এ কথার মানে কী? একটি লুড়ুর ছক্কার কথা চিন্তা করুন। একটি ছক্কা যদি আমরা চালি, তাহলে 
আমরা কয় ধরনের ভিন্ন ভিন্ন মান পেতে পারি? 6 ধরনের, তাই না? 1, 2, 3, 4, 5 ও 6। তার 
মানে, একটি ছক্কা চাললে মোট ছয় ধরনের ঘটনা ঘটতে পারে। 
এখন যদি আমরা চাই যে আমাদের ছকায় 4 উঠুক, সেটি কয়টি ঘটনার জন্য ঘটতে পারে? ছকার 
ওপরে 1, 2, 3 ইত্যাদি থাকলে কি আমরা 4 উঠেছে বলে ধরে নেব? মোটেই না। ছক্কায় ওপরে 
শুধু 4 উঠলেই কেবল আমরা আমাদের প্রত্যাশিত ফলাফল (3159009 04:০০76) পেতে পারি। 
সুতরাং, সূত্র অনুযায়ী একটি ছক চাললে তাতে 4 ওঠার সম্ভাবনা $। আবার আমরা যদি চাই যে, 
আমাদের ছকায় শুধু বেজোড় মান উঠুক, অর্থাৎ 1, 3 কিংবা 5 উঠুক, তাহলে তার সম্ভাব্যতা হবে 
ও রণ 
উস্দু। 
এই গেল আমাদের সম্ভাব্যতা কীভাবে নির্ণয় করতে হয় তার পদ্ধতি। আরেকটি বিষয় আমাদের 
জেনে নিতে হবে, সেটি হচ্ছে, শর্তাধীন সম্ভাব্যতা বা কন্ডিশনাল প্রোবাবিলিটি (0০070100141 
ঢ7094)119)। অর্থাৎ, আপনাকে কোনো একটি ঘটনা (বা, শর্ত) দিয়ে দেওয়া হবে, সেটি ঘটেছে 
ধরে নিয়ে সেই ঘটনার সাপেক্ষে আপনাকে অন্য কোনো ঘটনা ঘটার সম্ভাব্যতা বিচার করতে হবে। 


লুডুর ছকা দিয়েই বোঝাই। ধরা যাক, আপনাকে একটি সাধারণ ছকা দিয়ে বলল তাতে 5 ওঠার 
সন্তাব্যতা কত? আপনি জঙ্গে সঙ্গে উত্তর দিয়ে দিতে পারবেন, % তাই না? কিন্তু যদি এব 
আপনাকে বলে দেওয়া হয়, আপনি ছকা চাললে আপনার কোনো জোড় সংখ্যা উঠবে না। এবার 


১২৪ 


অধ্যায় ৮ : নাইভ বেইজ ক্লাসিফায়ার 0৭81 7565 019551007) 
যদি বলা হয় এই ঘটনার সাপেক্ষে ছক্কা চেলে 5 পাওয়ার সম্ভাবনা কত তা বের করতে, তখন 
কীভাবে সেটি হিসাব করবেন? 


দেখুন, আপনাকে যেহেতু বলেই দেওয়া হচ্ছে যে আপনার কোনো জোড় সংখ্যা উঠবে না, তার 
মানে দাঁড়াচ্ছে ছক্কা চেলে 2, 4 ও 6 পাওয়ার কোনো সম্ভাবনা-ই নেই। তাহলে আপনার ছক্কা চেলে 
উঠতে পারে 1, 3 কিংবা 5 তাহলে এই ক্ষেত্রে আপনার 5 পাওয়ার সন্ভাব্যত বেড়ে দাঁড়াবে 
তে। একইভাবে যদি আপনাকে বলে দেওয়া হতো যে, আপনি ছক্কা চাললে আপনার 4বাদে অন্য 
ঘেকোনো সংখ্যা উঠতে পারে, তাহলে সে ক্ষেত্রে আপনার 5 পাওয়ার সন্তাবনা হতো 5। এটিই 
হচ্ছে শর্তাধীন সম্ভাব্যতা। 

যদি « কোনো ঘটনা বোঝায়, যার মানে হচ্ছে, 1015 [০৪৮৪ এবং ০দিয়ে ছক্কার ওপরে কোন 
মান উঠবে সেটি নির্দেশ করা হয়, তাহলে আমাদের ছক্কায় জোড় সংখ্যা উঠবে না, এই শর্তসাপেক্ষে 
ছা 5 পড়ার সন্তাব্যতাকে লেখা হবে ৮০ ₹ 517); যেখানে « হচ্ছে আমাদের আগে থেকে 
দিয়ে দেওয়া শর্ত এবং ৮৫ 5120 মানে বোঝাচ্ছে এই শর্তের অধীন থাকা অবস্থায় ০. 5 
হওয়া সম্ভাব্যতা। সুতরাং, 


৮৫০-51৯)-3 


পরিচ্ছেদ ৮.২ : বেইজ থিওরেম হাতে-কলমে 


এখন আসি বেইজ থিওরেমে। সাধারণত, শর্তাধীনসম্ভব্যতার ক্ষেত্রে আমরা আগে কোনো একটি 
ঘটনা ঘটে গেছে, তার সাপেক্ষে পরের ঘটনা ঘটার সম্ভাব্যতা কত সেটি বের করি। 


যেমন, বি হয়েছে তার সাপেক্ষে রাভায় কাদা-পানি থাকার সম্ভাবনা কত? কিংবা, ক্যানসার 
হযেছে তার সাপেক্ষে রোগীর মৃত্যুর সভ্ভাব্াতা কত? ইত্যাদি। 


কিন্তু বেইজ থিওরেমে এর বিপরীত সন্তাব্যতা বের করা হয়। পরের যে ঘটনাটি ঘটেছে, তার 
সম্ভাব্যতা আমরা জানি, তার সাপেক্ষে আগের কোনো একটি ঘটনা ঘটার সন্তাব্যতা কত অর্থাৎ, 
পরের ঘটনাটি আগের 'কোনো একটি নির্দিষ্ট ঘটনার কারণে ঘটছে তার সন্তাব্যতা কত), সেটি 
আমাদের বের করতে হয়। অর্থাৎ, রাস্তায় কাদা-পানি দেখা যাচ্ছে, এখন এই কাদা-পানি যে বৃষ্টির 
কারণেই হয়েছে রাস্তায় কেউ এক বালতি পানি ছুড়ে মারার কারণে হয়নি, তার সম্ভাব্যতা কত; 
কিংবা, রোগী মারা গিয়েছে, কিন্তু রোগী যে ক্যানসারজনিত কারণেই মারা গিয়েছে, অন্য কোনো 
রোগের কারণে নয়, তার সন্তাব্যতা কত, এরকম একটি বিষয়। 


১২৫ 


মেশিন লার্নিং আযালগরিদম 


আমরা আগের ঘটনাকে যদি % ধরি এবং পরের ঘটনাকে যদি ০ ধরি এবং বেইজ থিওরেম 
করে যদি পরের ঘটনাটি যে আগের ঘটনার কারণেই ঘটেছে তার স্তাবযত বের করতে 
তাহলে সূত্র হবে এরকম _ 
₹৫০140-200 

৮৫০) 
খুব ছোট্ট একটি উদাহরণ দিয়ে বেইজ থিওরেম বোঝা শেষ করি। ধরা যাক, কোনো এলাকায় ক 
সমীক্ষা থেকে জানা যায়, সেখানকার এলাকাবাসীর ক্যানসার হওয়ার ঝুঁকি রয়েছে এবং প্রত্যেকের 
ক্যানসার হওয়ার সম্ভাব্যতা শতকরা 60 ভাগ। এ ছাড়াও, আরো জানা যায় যে ক্যানসারজনিত 
কারণে আগামী দুই বছরের মধ্যে ওই এলাকার কারো মারা যাওয়ার সম্ভাবনা শতকরা 85 ভাগ 
এবং ক্যানসার না হয়ে মারা যাওয়ার সম্ভাবনা শতকরা 45 ভাগ। 


৮010 - 


এখন, ধরা যাক, ওই এলাকায় 'ক' নামে এক বয়স্ক ভদ্রলোক থাকতেন, যিনি ওই সমীক্ষা চালানোর 
ঠিক এক বছরের মাথায় মারা যান। এখন আপনাকে বের করতে হবে যে ওই ভদ্রলোক 
ক্যানসারজনিত কারণে মারা গিয়েছেন, তার সম্ভাব্যতা কত? 


এটি কীভাবে বের করবেন? প্রথমে বের করতে হবে যে আগের এবং পরের ঘটনা কোনটি? এখানে 
ঘটনা আছে দুটি _ ক্যানসার হওয়া এবং মারা যাওয়া। কোনটি আগে হবে বলুন তো? ক্যানসার 
হয়ে মানুষ মারা যাবে, নাকি মানুষ মারা যাওয়ার পরে তাঁর ক্যানসার হবে? অবশ্যই প্রথমটি, তাই 
না? 


তার মানে, এ ক্ষেত্রে, 
| আগের ঘটনা, « _ ক্যানসার হওয়া, এবং 

পরের ঘটনা, ০ - মারা যাওয়া। 
আমাদেরকে বের করতে হবে ৮0 | ০) কত? 
প্রথমে চলুন বের করি, 2৫০1 %) কত? 
2৫০14) হচ্ছে ক্যানসার হওয়ার পরে মারা যাওয়ার সম্ভাব্যতা - 85% ৯ 0.851 
এর পরে, 2৫) ২ ক্যানসার হওয়ার সম্ভাব্যতা _ 60% _ 0.601 
আর সবশেষে ৮৫০) _ মারা যাওয়ার সন্ভব্যতা 

(ক্যানসার হওয়ার সম্ভাব্যতা * ক্যানসারের কারণে মৃত্যুর সম্ভাব্যতা) 

+ ক্যোনসার না হওয়ার সম্ভাব্যতা » ক্যানসার না হয়েই মৃত্যুর সম্ভাব্যতা) 
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অধ্যায় ৮ : নাইভ বেইজ ক্লাসিফায়ার (91৬6 88985 019351961) 
লু (0.6 ৯ 0.89) + (৫ 0.6) * 0.45) 


ক 0.5] +0.18 
_ 0:69 
সুতরাং, 'ক'-এর মৃত্যু যে ক্যানসারেই হয়েছে, তার সম্ভাব্যতা, 


201 0 53১১5 _ 0739 » 73.9% 


যাক, আশা করি আপনারা বেইজ থিওরেম কীভাবে কাজ করে এবং কীভাবে প্রয়োগ করতে হয় 
সবাই কমবেশি বুঝতে পেরেছেন। এখন আমরা দেখব কীভাবে বেইজ থিওরেম ব্যবহার করে 
নাইভ বেইজ ক্লাসিফায়ার তৈরি ও ডেটাসেটের ওপরে ব্যবহার করতে হয়। 


পরিচ্ছেদ ৮.৩ : হাতে কলমে নাইভ বেইজ ক্লাসিফায়ার 


আমরা প্রথমে একটি ছোটো ডেটাসেট নিই : 
না 
025 00001 [90020079 ]8000106  9/621 (৮4 
7 ০ 88115 জা 
101 9010] 0016 10000 ০ 
192 901)1)9 01) 0860001 |ব০ 
চা ৰা 7 রা 
103 010505 ডাঞাণো? [00007 ০ 
| 7 _) টা 
104 51010 ডজাণা। [0000] ৪ 
শন 01000 0০010 [00001 এ 
] 106 [01989 শী, 7 0000001" 18 
| _ 107 9010105 0০1৫ 0800001 | 95 
টি ৩ 


টেবিল 8.3.1 


ডেটাসেটটি যদি আপনারা ভালো করে লক্ষ করেন, তাহলে দেখবেন যে মধ্যের তিনটি কলাম হচ্ছে 
আমাদের ফিচার ডেটা, আর শেষের কলামটি হচ্ছে আমাদের সর্বশেষ যে ফলাফল হবে সেটি। 


এখন, আমাদের বের করতে হবে যে, যদি আমাদের ফিচার সেট এরকম হয় _ (01990), //177, 
9৬৫০০) তাহলে ফলাফল কী হবে? বাইরে বের হওয়ার সময় কোট পরব, নাকি পরব না? 


১২৭ 


.. শ্ 


মেশিন লার্নিং আলগরিদম 
এটি বের করার জন্য আমরা যদি নাইভ বেইজ ক্লাসিফায়ার প্রয়োগ করতে চাই, 
আমাদেরকে দুটি মান বের করতে হবে _ 


অহদে 


1. 70৫0 হ /65 1% ক 0195), ৮/277% ০2৫০০7) এবং 
2,৮৫0 7 110 1% ল ০195427, //2777 0:4৫0907)। 


এখানে ০ 5 75 /7০ দিয়ে 7/25/০০৪এর মান 265 /779 বোঝানো হয়েছে। 


প্রথমটির ক্ষেত্রে, 
05 ০2912759০৮৯ 


_ :৮0০1984) 105%65)-৮06/0771| 05+65)-৮০0৮/4০০1"| 0195)৮(0-169) 
রা ৮00০44)-৮0/4777)-৮09461০07) 


এখন, অনেকেই হয়তো বুঝতে পারেননি, /001984)/| ০ _ /৫৪)-এর মান কেন £ হলো। 


ওপরের টেবিল 8.3.1-এ প্রথমেই দেখুন, 197 ০০৪*এর মান /৪5 আছে মোট 3 জায়গায় 
(শেষের তিন সারিতে)। এই তিন সারিতে দেখুন, 0///০9/ কলামে 01080 আছে মোট ?টি 
আর 54117 আছে 1টি। অর্থাৎ তিনটি ০ » %৪5-এর মধ্যে দুটির জন্য আমরা 0%99/কেলামে 


01080) পাচ্ছি। 
রি ঃ দাঁড়ায় মোট কয়টি 01০%৫ আমরা ৫-/5এর জন্য পেয়েছি _ 2 
তাই 206198৫9 | ০ 159) এর মান ** মোট কয়টি 01০%:৫১/ আছে ০%/০০/ কলামে 3 


এইভাবে বাকিগুলোও হিসাব করা হয়েছে। 
এখন, একইভাবে, 
৮01 0-৭০)১৮০7৭০) 


৮৫০7 3০1) _ 
14০)200540) 


_:20০58৫) | 0_1০)-৮0/2772| ০৯৭০)-29%:2997 | 62 টিপি 


2005549)-50/277)-20042007) 
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244 
-:0.340 
৯ ২ 00017) এই 
2৫০7 ০1১) ৯ ৮৫০ _ 551), সুতরাং (01009, $/এাণা), 080 
ইরা রালারলহরে 1২০। এভাবেই একটি নাইভ বেইজ ক্লাসিফায়ার কাজ করে। 
আশা করি সবাই বুঝতে পেরেছেন। 


১২৯ 


অধ্যায় ৯: ডিসিশন ট্রি 09905107)1756) 


ডিসিশন ট্রি নাম থেকেই আন্দাজ করা যানের 
অনেকটা যে এটি এক ধরনের ট্রি, যেটি কিনা 
আমাদের কোনো পরিস্থিতিতে একটি যুক্তিযুক্ত 
সিদ্ধান্তে পৌঁছতে সাহায্য করে। ট্রি তৈরির 
ব্যাপারগুলো অনেকে হয়তো আগে থেকে 
জানেন, যাঁরা গ্রাফ থিওরি নিয়ে কিছুটা 
পড়াশোনা করেছেন। এ ছাড়া সাধারণ 
আ্যালগরিদম কিংবা ডেটা স্ট্রাকচার কোর্সেও ট্রি 
সম্পর্কে পড়েছেন অনেকেই আশা করি। 


আমরা যে ডিসিশন ট্রি তৈরির আযালগরিদম 
নিয়ে পড়ব 0193, সামনে এটি নিতে বিস্তারিত 
আলোচনা আছে) তার উদ্ভাবক রস কুইনল্যান 
03955 0011191), 1943) । 

এটি আমার সবচেয়ে প্রিয় মেশিন লার্নিং 
আযালগরিদম, আর তাই এই অধ্যায়টি বেশ 


৯ 
০ 


ছবি 9.1 13955 0000191) (1943) 


বড়োসড়ো হয়ে যাবে। সবাইকে একটু হাত-পা ছড়িয়ে নিয়ে তারপরে অধ্যায়টি পড়াতে বসার 


আমন্ত্রণ জানাচ্ছি। 


পরিচ্ছেদ ৯.১:ডিসিশনট্রিকী_ 
ডিসিশন দ্রি তৈরির পদ্ধতিতে যাওয়ার আগে, আগে একটু বুঝে নিই ডিসিশন ট্রি আসলে কীরকণ' 


সিনেমা দেখতে যাবেন। বাসার পাশেই বলাকা সিনেমা হুল। যদিও রাস্তাঘাটের যে অবস্থা 


তি 


সময়মতো বাসায় ফিরতে পারবেন কি না সেটি এক দুশ্চন্তা। বাসার কাছাকাছি এসে তাঁর মদ 
পড়ল যে তাঁর অনলাইনে টিকিট কাটার কথা ছিল, কিন্তু তিনি কাটতে ভুলে গেছেন। এখন 
হলে গিয়েই দেখতে হবে টিকিট আছে কি না। তিনি তাঁর স্ত্রীকে ফোন দিলেন টিকিট 
তিনি টিকিট। তাঁর ছেলেকে ফোন দিলেন, ছেলে গেছে কোটি তাঁর মানে দাঁড়াচ্ছে মদ জি 


১৩০ 


অধ্যায় ৯: ডিসিশন ট্রি 0905107 শ7া০৪) 
সময়মতো বাসায় পৌঁছাতে পারেন, তীর স্ত্রী যদি মার্কেট থেকে টিকিট কিনে সময়মতো বাসায় 
ফিরতে পারেন, ছেলে যদি সময়মতো কোচিং থেকে বাসায় ফিরতে পারে, তাহলেই কেবল সবাই 
রেডি হয়ে সুন্দরমতো হলে যেতে পারবেন সিনেমা দেখার জন্য, নাহলে পারবেন না। 
এখন এই পরিস্থিতির জন্য আমরা যদি একটি ডিসিশন ট্রি বানাই, তাহলে সেটি দেখতে এরকম 


হবে ছছেবি 9.1.1) : 


ছবি 9.1. 
এই হচ্ছে মোটামুটি একটি ডিসিশন ট্রি-র চেহারা। এই ট্রি-র রুট (0০০) হিসেবে আছে রহিম 
সাহেবের বাসায় ফেরার ব্যাপারটি। 


এখন কথা হচ্ছে, এটাকে রুট হিসেবে না নিয়ে তো আমরা 
বাসার ফেরার ব্যাপারটিকেও রুট হিসেবে নিতে পারতাম। 
কাটার ব্যাপারটিকেও আমরা রুট হিসেবে নিতে পারতাম। তাহলে? 


রহিম সাহেবের ছেলের সময়মতো 
কিংবা রহিম সাহেবের স্ত্রীর টিকিট 
কোনটিকে নেব রুট হিসেবে 


ইন্টারমিডিয়েট নোড (যেগুলো লিফ নোড নয়, অর্থাৎ 


এবং কেন? আর ট্রি-এর যে নোডগুলো 
কীভাবে ঠিক করব যে, কোনটির পরে 


যাদের আর কোনো চাইন্ড নোড নেই) তাদের ক্রমই বা 


কোনটি আসবে? 

এটি ঠিক করার জন্যই ডিসিশন ট্রি তৈরিতে ইটারেটিভ ডাইকটোমাইজিং (19790%5 
01010001150 3-[03) নামে একটি আযালগরিদম ব্যবহার করা হয়। 193 আযালগরিদম শিখতে 
হলে আগে দুটি বিষয় সম্ব্ধে ধারণা রাখতে হবে - এনট্রপি ও গেইন। সেগুলো নিয়ে আমরা এখন 
জানব। 


১৩১ 


মেশিন লার্নিং আলগরিদম 
পরিচ্ছেদ ৯.২: এনট্রপি 700০7) 


এনট্রপির সোজাসাপ্টা বাংলা হচ্ছে বিশৃঙ্খলা। আমরা অনেকেই হয়তো উচ্চমাধ্যমিক 
পদার্থবিজ্ঞানে তাপগতিবিজ্ঞান ো19770077917105) পড়ার সময় এই নিক 
পড়েছিলাম। নি 


আমাদের এই মেশিন লার্নিংয়ে এনট্রপি বলতে বোঝাবে, আমরা আমাদের কোনো ডেটাসেটনে 
যদি কোনো একটি ফিচারের সাপেক্ষে পার্টিশনিং করি, তাহলে সেই পার্টিশনিং কত ভালোভাবে 
আমাদের টার্গেট ভ্যারিয়েবলের কলামকে পার্টিশন করতে পারবে সেটি। নিচের টেবিলটি (টেবিল 
9.2.1) দেখি। 


ফিকশন জেকেরাওলিং |না 
থিলার সত্যজিৎ রায় হ্যাঁ - 


 খ্রিলার জে কে রাওলিং [না 


1 


ফিকশন সত্যজিত রায় [হ্যা [ 
টেবিল 9.2.1 


প্রথমে বলে নেই, পার্টিশনিং ব্যাপারটি আসলে এরকম _ কোনো একটি ফিচার কলামের যত ভিন্ন 
মান থাকবে, প্রতিটির জন্য আমরা টার্গেট ভ্যারিয়েবলের ভিন্ন ভিন্ন মান নেব। 


যেমন, 'বইয়ের লেখক' _ এই কলামে দেখুন, দুটি ভিন্ন ভিন্ন লেখকের নাম আছে, 'জে কে রাওলিং 
ও 'সত্যজিৎ রায়'। আমরা যদি এখন, এই 'বইয়ের লেখক' কলাম দিয়ে পুরো ডেটাসেটকে 
পার্টিশন করি, তাহলে দুটো পার্টিশন পাব। প্রথমটি জে কে রাওলিংয়ের জন্য, যে ক্ষেত্রে টার্গেট 
কলাম 'বই কিনব?' এর সবগুলো মানই 'না'। 


[বইটি কিনব? | 


টেবিল 9.2.2 


আর দ্বিতীয়টি সত্যজিৎ রায়ের জন্য, যে ক্ষেত্রে টার্গেট কলাম “বই কিনব?' এর সবগুলো মানই 
হ্যাঁ?। 


১৩২ 


অধ্যায় ৯: ভিসিশন ট্রি 


(9৩051007156) 


টেবিল 9.2.3 


এখন, আমরা যদি একটু খেয়াল করি, তাহলে দেখব, আমরা 'বইয়ের লেখক' দিয়ে পার্টিশনিং 
করার ফলে যে দুটো পার্টিশন তৈরি হলো, তারা কিন্তু আমাদের টার্গেট কলামটিকে মিনিমাম বা 
শূন্য এনট্রপিতে পার্টিশন করতে পেরেছে। অর্থাৎ, প্রথম পার্টিশনের জন্য সব টার্গেট ভ্যালুর মানই 
'না', এখানে কোনো 'হ্যাঁনা'র মিশ্রণ নেই, অর্থাৎ একটি “হ্যাঁ, আরেকটি 'না' _ এরকম নয়। 


একইভাবে, দ্বিতীয় পার্টিশনের ক্ষেত্রেও সবগুলো টার্গেট ভ্যালু 'হ্যা', কোনো 'হ্যা-না'র মিশ্রণ নেই। 
যদি মিশ্রণ থাকত, তাহলে এনট্রপি অনেক বেশি হতো, অর্থাৎ বিশৃঙ্খলা বেশি হতো। আমরা সেটি 
চাই না। আমাদের লক্ষ্যই হলো এন্ট্রপির মান কমিয়ে নিয়ে আসা। যদি আমরা 'বইয়ের লেখক' 
কলাম দিয়ে পার্টিশন করি, তাহলে দেখতেই পাচ্ছি দুটো পার্টিশনের জন্যই আমাদের এন্ট্রপির 
মান শুন্য হবে। 

এখন, আমরা যদি 'বইয়ের লেখক' কলাম দিয়ে পার্টিশন না করে 'বইয়ের ধরন' নামের কলাম 
দিয়ে পার্টিশন করতাম, তাহলে প্রথম পার্টিশন হতো 'ফিকশন' আউটকামের জন্য _ 


টেবিল 9.2.5 


এখন এই 'বইয়ের ধরন" দিয়ে করা পার্টিশন দুটি যদি দেখি, তাহলে দেখব যে এখানে এনট্রপি 
রয়েছে, কারণ পার্টিশনের কারণে টার্গেট কলামে হ্যাঁ-না মিশ্রণ চলে এসেছে। 


১৩৩ 


মেশিন লার্নিং আযালগরিদম 

অর্থাৎ, আমাদের ডিসিশন ট্রেতে বখনই আমরা কোনো ডিসিশন নৌ বেছে নেষ জেট 

₹বা অন্য যে-কোনো অন্তর্বতী নোড) তখন সেটি বেছে নেওয়ার সময় আমাদের এই এম শীউ 
আশ্রয় নিতে হবে এবং দেখতে হবে কোনটি ব্যবহার করলে আমাদের সবচেয়ে এন্ট্রি 
এন্ট্রপি গাণিতিকভাবে বের করার একটি সূত্র আছে। সূত্রটি হচ্ছে_ | 
যে-কোনো সেট 5-এর জন্য, 

1270-017(5) ল 11727198927 
এবং এই এন্ট্রপি হিসাব করতে হবে যে-কোনো পার্টিশনের জন্য মোট কয়টি ভিন্ন ভিন টার 
ভ্যারিয়েবল আছে সেখান থেকে। 
দুটি, 'হ্যাঁ' আছে দুটি। সুতরাং, 
715790705) _ 21557511992 
এ 
চা 

এখানে % হচ্ছে যে-কোনো একটি টার্গেট ভ্যারিয়েবলের মান ঘটার সম্ভাব্যতা । যেমন, আমাদের 
ডেটাসেটে 'না' আছে দুটি, মোট ডেটা চারটি। সুতরাং, টার্গেট ভ্যারিয়েবল 'না' হওয়ার 
সন্তাব্যতা,2। 
গ্রাফ 9.2.1 লক্ষ করুন। এই গ্রাফটি হচ্ছে, এনট্রপি গ্রাফ, যেটি থেকে এনট্রপি সম্বন্ধে একটি ধারণ 
পাওয়া যায়। গ্রাফের /-অক্ষ বরাবর নেওয়া হয়েছে £% ও %-অক্ষ বরাবর নেওয়া হয়েছে এনট্রগির 
মান। 
গ্রাফ থেকে দেখা যাচ্ছে যে, যদি টার্গেট ভ্যারিয়েবলের আউটকামগুলো কোনো একটি পারিশনে 
জন্য সব এক ধরনের হয় সৈবগুলো হ্যাঁ" কিংবা সবগুলো 'না) তাহলে সেই পার্টিশনের এন 
হয় শূন্য। 
আর যদি, সমানসংখ্যক থাকে প্রতিটি আউটকাম (যেমন, ধরা যাক 10টি আউটকামের মধ্যে 
হ্যাঁ, চটি না_ এরকম) সে ক্ষেত্রে সম্ভাব্যতা হয় 0.5 এবং এই মানের জন্যই এনটরপি ভ্যান দর 
সবচেয়ে বেশি। 
অফারে বে পানর তন মান সবে 
আনতে পারি। 


১৩৪ 


জা এ 
ধ্যায় ৯: ডিসিশন ট্রি (9০০51077156) 


পরিচ্ছেদ ৯.৩: গেইন (0917) 
পেইন মানে হচ্ছে কোনো কিছু গাওয়া, অর্জন করা, তাইনা? মেশিন লর্িযের ক্ষেত্রেও গেইন 
মানে ঠিক তা-ই। আমরা কোনো গাণিতিক হিসাবনিকাশ করে কিছু একটা পাব, সেটিই হবে 
আমাদের গেইন। এখন কথা হচ্ছে কী পাব? 
আমরা এতক্ষণ এনট্রপি গড়ার সময় বলেছি যে, আমাদের লক হচ্ছে পার্িশনের পরের এন্ট্রি 
অমর অর্থাৎ দি আমাদের পার্টিনের আগের মোট এনট্রপি হয় £॥ এবং পরের মেট এনট্রপি 
হয় 8॥ তাহলে, আমরা চাইছি 8 ও £৯-এর মধ্যেকার পার্থক্য যতটা সম্ভব বাড়াতে, অর্থাৎ 7 € 
%॥ করতে। 
এই £॥ ও এর মধ্যেকার মানের পার্থকাই হচ্ছে গেইন। আমাদের লব্য হু £৮-এর মান 
যত পা যায় মিনিমাইজ করার মাধ্যমে গেইনের মান যত পারা যায় ম্যক্সিমাইজ করা। 
তাহলে, গেইনের সূত্র হচ্ছে : 

087705,4) ₹ 87005) _ 2৮০৮ 90181% 27270) 
আমাদের বইয়ের ডেটাসেটের জন্য, আমরা যদি এখন, 'বইয়ের লেখক' দিয়ে পার্টিশন করি, 
ভাহলে, 


১৩৫ 


মেশিন লার্নিং আলগরিদম 
পার্টিশন করার আগের এনট্রুপি 


17707017)/ (5) _ 
পু 2. 2 রর 
-1/10021) ল _ ঘা 19923 4 71992 2) ল্] 


নদ 17 
এখন, যেহেতু আমরা 'বইয়ের লেখক' দিয়ে পার্টিশন করছি, 


তাই, 4 _ বইয়ের লেখক, এবং 
/91%2504) » (জে কে রাওলিং, সত্যজিৎ রায়) 


সুতরাং, ৮-এর মান প্রথমে 'জে কে রাওলিং' নিয়ে, এবং পরে 'সত্যজিৎ রায়" নিয়ে সেই পার্টিশনের 
এনট্রপি বের করব - 
87৮75 (এেজকেরাওনি) ₹ _($10922+210858) » ০ 
0, 04) 4 
1770-0/($সতাজিৎ্ায়) ₹ _ (71 7+31992 7) চে 


সবশেষে, 'জে কে রাওলিং' নিয়ে পার্টিশনের ক্ষেত্রে 1৮০ রণ _ %, যেহেতু জে কেরাওনিং 
নিয়ে মোট চারটি উদাহরণের মধ্যে 2টি উদাহরণ আছে এবং একইভাবে সত্যজিৎ রায় দিয়ে 


পার্টিশনের ক্ষেত্রে, 155! _ 2। 
£109 4 
সুতরাং, সবশেষে, 
09710,4) _ 80520 5) _5:৮5/4855 90118 ৪0০00) 
লিলি 
1 ($০+2৯০) 
ল্] 


02180,4) ₹ 800270) _ 2৮০৬ বে) 800290৯) 


-1-15(-0551525858+14055858%)] 


অধ্যায় ৯: ডিসিশন ট্রি (90510) 17০৫) 


আমাদের লক্ষ্য ছিল যে পার্টিশনের গেইন বেশি হবে, আমরা সেই পার্টিশন ব্যবহার করব। আমরা 
দেখতে পাচ্ছি যে, 'বইয়ের লেখক" দিয়ে পার্টিশন করলে আমরা গেইন সর্বোচ্চ পাচ্ছি, সুতরাং 
আমরা পার্টিশন করব 'বইয়ের লেখক' দিয়ে। 


পরিচ্ছেদ ৯.৪ : কীভাবে ডিসিশন ট্রি বানাব 


এখন আমরা গোড়া থেকে সম্পূর্ণ নতুন একটি উদাহরণ করে দেখব কীভাবে ডিসিশন ট্রি তৈরি 
করতে হয়। আমাদের নতুন ডেটাসেট : 


1৪2 0০90 


০ [| 


০ 


৷ 9 0900০001. 1 9701096750076 | চ২0001)9 


510179 0০010 170001 


50010119 ড/থাণা। 09000901 


01900 | ৬/917) 10001 ০ 


আল 
501019 ৬/9177) 1100901 ০ 


০5 


01900 0014 [10001 
01980 0014 0900001" 
5010179 0০10 0900001 
মনে করে দেখুন, এই ডেটাসেটটিই আমরা নাইভ বেইজ ক্লাসিফায়ার তৈরি করার সময় ব্যবহার 
করেছিলাম। সেটিই আবারও ব্যবহার করে আমরা ডিসিশন ট্রি-ও তৈরি করব। 


80096190007): 


আমাদের সবার আগে ডিসিশন ট্রি-এর 7২০০: 96152507 করতে হবে। একটু আগে যে পদ্ধতি 
দেখলাম, সেই পদ্ধতিতে। আমাদের এখানে ফিচার আছে তিনটি _ 00001 16102790076 ও 
২০৫1৪ আর আমাদের ডেটা আছে মোট ?টি। এখন আমরা তিনটি ফিচারের প্রতিটির জন্য 
আলাদা আলাদা করে, এদের দিয়ে পুরো ডেটাসেট পার্টিশন করলে কত গেইন হবে সেটি বের 
করব। এরপর, যেটি সর্বোচ্চ গেইন দেবে তাকে রুট নোড হিসেবে নির্বাচন করব। 


এখানে, পার্টিশন করার আগের এনট্রপি ৪) ₹ _ (31297 4+ 21095 £) _ 0.985 


১৩৭ 


মানে ৭০ 
1700%/99/-554770/) ₹ 
(4৮152) 
₹0.81] 
1700%/199/-019%/4) » 
1 2 1 1 
-(81%/22+ 31292) 
0,918 
01705, 01/0100/) _ 
₹05)- ঃ ৮0,811 
-$৯0.918 
_0.985-3$৯:0.811 
-$৯0.918 
ল 0.128 


এখন, ওপরের তিনটি 


গেইন সবচেয়ে বেশি। সুতরাং, আমরা [91119679006-কেই 
করব। তাহলে, আমরা এখন একটি পার্শিয়াল ডিসিশন ট্রি 0১97191 060907 


মানে ০ 


£08000716-1)10007-) ২ 
স্পট ০ 

(31০68+ ১0০৪2) 
0,811 


170677/76721576-6 01৫) _ 
ও ও 

-(2০৮3+ 3০) 
নু 0.811 
/00800716-08/1007) ২ 
টি রঃ 1০2১245107,£ 

ছা 02 বর 3 2023) 
ক 0.918 


17067771)6700476-11/7771) 
0 9 ও চ। 

-(3/91+31055) 

9 

001)/05,1101/01706) _ 

1?) -£৯0৪811 
-3* 0918 


00171(5,76771)6700176) » 
1005) -3৯0.811 


-১%০ 
_:0.985 -১১0.811 ₹:0.985- রঃ ১0.811 
-১৯০ -3৮0.918 
ল:0.521 0,128 


গেইন-এর মানের মধ্যে, 16106780016-এর মাধ্যমে করা ৬৮ 


আমাদের রুট নোড হিসেবে 
1196) পেয়ে 


গেলাম, যেটি দেখতে এরকম (ছবি 9.4.1) : 


অধ্যায় ৯: ভিসিশন ত্রি (9৩০51077166) 

এখন, আমাদের ডেটাসেটটি দুটি সাবসেটে ভাগ হয়ে গেল। এর মধ্যে একটি সাবসেটের এনট্রপি 
ূনয ডোন দিকেরটি), সুতরাং ওটি নিয়ে আমাদের আর কোনো মাথাব্যথা থাকবে না। ওই নোডে 
পৌঁছানো মানে 1/247697:এর মান সব সময়েই ০ হবে। 

এখন বাকি থাকে, বাঁ দিকের সাবসেট _ 01, 05, 06 এবং 07। এটিকে আমাদের আবার 
পার্টিশন করতে হবে এবং ততক্ষণ পর্যন্ত এই পার্টিশন করা চালিয়ে যেতে হবে যতক্ষণ পর্যন্ত না 
আমরা এনট্রপি শূন্য পাচ্ছি। আমাদের এই নতুন সাবসেটের নাম দিই $1। এই 51-এর এন্ট্রপি 
হবে 

81) _ _ (319952 +41০922) _ 0.811 

এখন আমরা এই নতুন সাবসেটকে আমাদের মূল ডেটাসেট বিবেচনা করে এর ওপরে আগের 
মতো পার্টিশন চালিয়ে দেখব কোনটিতে গেইন বেশি পাওয়া যায়। আমরা যেহেতু 16111১019101৩ 


ফিচারটি ইতিমধ্যেই ব্যবহার করে ফেলেছি, তাই আমাদের এখন শুধু 0010901ও 1২00101)0 _ 
এই দুটি ফিচার দিয়ে পার্টিশন করে দেখলেই চলবে। 


এখানে + মানে %8$, আর _ মানে ৭০ এখানে + মানে $৫$, আর _ মানে ০ 


00900015011) চ03000106-1700901) 

1 ্ 1 খ 1 গ. 

- (1০922 + 21০92 সু হু 19922 + 219922) হ্] 
8(090০01-010980)) 20২০৪79-0900007) 

2 2 0 2 টা ০২._ 
--(310852+219952) ০0 19952 + 21922) » 0 
00105, 0৮1001) 01705, 29672) 
৪$1)-$৯1-3০0 _৪91)-2%1 2৯০ 
২0.811-2১1-2৯0 -0.811-2১1-2%0 

ঞ চা 4 4 


৯ 0.311 লু 0.311 


১৩৯ 


মেশিন লার্নিং আযালগরিদম 
এখন দেখা যাচ্ছে, আমাদের 090০০]. ও 1২০4৩ দুটির ক্ষেত্রেই গেইনের পরিমাণ এ 
সুতরাং যে-কোনোটিকেই আমরা পরবতী ডিসিশন নোড হিসেবে ধরে নিতে পারি। আমরাই! 
0০০০/-কে আমাদের পরবর্তী ডিসিশন নোড ধরে নিই, তাহলে বাকি থাকে শুধু টার 
সেটি দিয়েও আমরা একইভাবেই পার্টিশন করে দেখব। সব ঠিকঠাকমতো করতে পারণা 
আমাদের সর্বশেষ ডিসিশন ট্রি দাঁড়াবে এরকম ছেবি 9.4.2) : * 


ছবি 9.4.2 


সুতরাং আমরা শিখে ফেললাম কীভাবে 193 আযালগরিদম প্রয়োগ করে ডিসিশন ট্রি তৈরি করতে 
হয । আশা করি সকলেই বুঝতে পেরেছেন। 


অধ্যায় ১০: প্রিন্সিপাল কম্পোনেন্ট আ্যানালাইসিস (97012 
(001010010670011217515 - 2০) 


ধরুন, কোন ডেটাসেটের জন্য, ফিচারের সংখ্যা অনেক বেশি (৯10,000) এবং সেই তুলনায় 
ট্রেনিং ডেটা পর্যাপ্ত নেই। এ ধরনের ক্ষেত্রে হিসাবনিকাশ অনেক বেশি জটিল হয়ে যায় এবং 
009016-ও অনেক বেড়ে যায় (সময়, মেমোরি বেশি লাগে ইত্যাদি)। 


এসব ক্ষেত্রে, এত এত ফিচারের মধ্যে খুব ভালোমতো যদি ডেটা আযানালাইসিস করা যায়, তাহলে 
দেখা যাবে মাত্র কিছুসংখ্যক ফিচার আমাদের দরকার, বাকিগুলো না হলেও হবে। তখন, আমরা 
অপ্রয়োজনীয় ফিচারগুলো বাদ দিয়ে দিই, যাকে বলে ডাইমেশন রিডাকশন (010)175107 


[360010007)। 


এক ধরনের আযালগরিদম আছে, যেগুলো ডেটার এই ডাইমেশন রিডাকশনের কাজ করে দেয়, 
এগুলোকে বলে ডাইমেনশনালিটি রিডাকশন আ্যালগরিদম (01710751079110/ [২900007 
81801000)। এই ধরনের কোনো একটি আযালগরিদম ব্যবহার করে আমরা ডেটার ফিচারের 
সংখ্যা কমিয়ে নিয়ে আসি। 

এই ধরনেরই একটি আ্যালগরিদম হলো প্রিক্সিপাল কম্পোনেন্ট আযানালাইসিস (21019 
00110011010 ,081515) বা পিসিএ 0১০4)। নাম থেকেই বোঝা যাচ্ছে, কোথাও অনেকগুলো 
কম্পোনেন্ট আছে, আমাদের সেখান থেকে যে কম্পোনেন্ট/কম্পোনেন্টগুলো সবচেয়ে বেশি 
গুরুত্বপূর্ণ সেগুলো রেখে বাকিগুলো বাদ দিয়ে দিতে হবে। ব্যাপারটি আসলেই অনেকটা এরকম। 
মেশিন লার্নিয়ের ক্ষেত্রে, এই কম্পোনেন্ট বলতে বোঝায় ফিচার ডেটা। 


তাবে একটি ম্যাট্রিকের জন্য আইগেনভ্যালু (9189759186) ও আইগেনভেক্টর 
(81897%900) বের করতে হয়। সবশেষে আমরা, এগুলো ব্যবহার করে কীভ 
আ্যালগরিদম কাজ করে সেটি দেখব। 


১৪১ 


. ব্ 


মেশিন লার্নিং আলগরিদম 
পরিচ্ছেদ ১০.১ : মিন 04521) স্ট্যান্ডার্ড ডেভিয়েশন (90৪70210 9০প801) 
এবং ভ্যারিয়েন্স (19706) 


এগুলো আমরা সবাই-ই ছোটোবেলায় কমবেশি পড়ে এসেছি। তাও, আরেকবার ঝালাই করে 
নিই। মিন 0461) হচ্ছে গাণিতিক গড়। 


5 2005856 
গড় বের করার সুত্র, £ _ মা 


এই ভয়াবহ চেহারার সমীকরণের মূল বক্তব্য হলো, যতগুলো ডেটা থাকবে, সবগুলোকে যোগ 
করে, ডেটার সংখ্যা দিয়ে ভাগ দিলেই গড় পাওয়া যাবে। 


কোনো ডেটাসেটের গড় থেকে সেই ডেটাসেটের মানগুলোর ব্যাপারে একটু ধারণা পাওয়া যায়। 
তবে এর পাশাপাশি, যদি আমরা সেই ডেটাসেটের স্ট্যান্ডার্ড ডেভিয়েশন বের করতে পারি,তাহলে 
ডেটাসেটের মানগুলোর ব্যাপারে আরো পরিক্ষার ধারণা পাওয়া যায়। 

স্ট্যান্ডার্ড ডেভিয়েশন বের করার সূত্র, 5) -₹ চিলি 


0৮71) 


সহজ করে বলতে গেলে স্ট্যান্ডার্ড ডেভিয়েশন যা বোঝায় তা হলো, আমাদের ডেটাসেটের প্রতিটি 
ডেটা সেই ডেটাসেটের গড়মান থেকে কত দূরে আছে কেম বা বেশি), সেই দূরত্বের মানগুলোর 
বর্ণের গড় মানের বর্গমূল বা সংক্ষেপে আরএমএস (045) গড়। 


এখানে, একটি প্রশ্ন প্রায়ই সবার মাথায় আসে যে, আমাদের মোট ডেটার সংখ্যা তো 7, তাহলে 
কেন আমরা % দিয়ে ভাগ না করে ৫৮-_-1) দিয়ে ভাগ করছি? এর কারণটি ভেঙে বলার চেষ্টা 
করছি। 


ধরা যাক, আপনি পৃথিবীর সব মানুষের বয়সের গড় বের করতে চান। তাহলে আপনাকে কী করতে 
হবে? পৃথিবীর সব মানুষের বয়স এক এক করে যোগ করে তাকে মোট মানুষের সংখ্যা দিয়ে ভাগ 
করতে হবে, তাই না? কিন্তু, বাস্তবে এই কাজটি করা অসম্ভব; কোনোভাবেই প্রতিটি মানুষের কাছে 
গিয়ে, তার বয়স জেনে নিয়ে সব যোগ করে গড় বের করা সম্ভব নয়। 


তাই এ ক্ষেত্রে যাঁরা এই ধরনের ডেটা নিয়ে কাজ করতে যান, তাঁরা যেটি করেন, তা হলো, এই 
সাড়ে সাত বিলিয়ন মানুষের ডেটাসেট না বানিয়ে আরো ছোটো সাইজের ডেটাসেট ধেরুন, 1000 
জন মানুষের ডেটাসেট) তৈরি করেন। তাঁরা এই 1000 জন মানুষকে এমনভাবে নির্বাচন করেন 
যাতে, এতে পৃথিবীর ভিন্ন ভিন্ন প্রায় সব দেশের, সব বয়সের, ধর্মের, বর্ণের, গোত্রের মানুষ থাকে। 
কিংবা তাঁরা যে ডোমেইন নিয়ে কাজ করতে চান, সে ডোমেইনের সব ধরনের ভ্যারিয়েশন যেন 
এই ডেটাসেটে বিদ্যমান থাকে, সেটি নিশ্চিত করেন। 


১৪২ 


ডি 


অধ্যায় ১০: প্রিন্সিপাল কম্পোনেন্ট আযানালাইদিস 0917091 00711)0176111/511910515 - 7০4) 

তাঁরা দি বিভিন্ন দেশের মানুষের মধ্য পর্যালোচনা করতে চান, তাঁরা নিশ্চিত করেতাবে 
গে চান যে তাদের ডেটানেটে যেন প্রতিটি দেশ থেকে একজন মানুষের তথ্য থাকে। এইভাবে 
ধরে নেওয়া হয় যে, ওই একজন মানুষের সম্পর্কে তথ্য পেলে সেটি ওই গোটা দেশের মানুষের 
সম্পর্কেই তথ্য পেয়ে যাওয়া হবে। এই ধরনের ডেটাসেটকে বলা হয় স্যাম্পল ডেটা সেট এবং 
সেটি আমাদের প্রধান সেট, যেটি পৃথিবীর সব মানুষকে নিয়ে যে সেট তৈরি হবে, তার একটি 


জাবসেট। 
এখন ধরা যাক, আপনি যদি আপনার প্ধা ডেটাসেট নিয়ে কাজ করতেন, তাহলে তার সার 
ডেটাসেট নিয়ে কাজ করার কারণে যদি আপনি 7 দিয়ে ভাগ 


ডেভিয়েশন হতো 5 এবং 
করেন, তাহলে আপনার স্ট্যান্ডার্ড ডেভিয়েশন হবে 5 এবং যদি আপনি 7 _ 1 দিয়ে ভাগ করেন, 
তাহলে সেটি হবে 5%-11 


বাস্তবে দেখা যায়, প্র র 
5॥-1-এর মান প্রধান ডেটাসেটের 5-এর বেশি য। আর র 
এর মন সেটের বদলে সযাম্পল ডেটাসেট ব্যবহার করি, তাই আমরা "এর পরিবর্ডে 


1_ 1 দিয়ে ভাগ করি। 
যদি, আমরা স্যাম্পল ডেটাসেট ব্যবহার না করে প্রধান ডেটাপেটই 
অবশ্যই আমরা 7 দিয়ে ভাগ করতাম। 

সূত্র। ভ্যারিয়েন্স ও স্ট্যান্ডার্ড 


সবশেষের যে ুত্রটি, সেটি হলো ভ্যারিয়ন্স (৬911870)-এর 
ডেভিয়েশন প্রায় একই জিনিস। স্টান্ডর্ড ডেভিয়েশনের মানকে বর্গ করলেই আমরা ভ্যারিযেন্স 
চ50৫202 


পেয়ে যাই। 
সুতরাং, 9০0) _ 5০:75 


ব্যবহার করতাম, তাহলে 


পরিচ্ছেদ ১০.২ : কোভ্যারিয়েন্স (০০%৪115006) ও কোভ্যারিয়েন্স ম্যাত্রিক্স 
(00৮91191709 1120750 


কোত্যারিয়েন্স (0০%41766) ও ভ্যারিয়েন্সের মধ্যে অনেকখানিই মিল আছে, পার্থক্য শুধু 
ড্ারিয়েন্স কাজ করে একমাত্রিক বা 1-) ডেটা দিয়ে,আর কোত্যারিয়েন্স কাজ করে ছিমাত্রিক বা' 


-) ডেটা দিয়ে। উদাহরণ দিয়ে বোঝানোর চেষ্টা করছি। 
আমাদের সেই পিত্জার উদাহরণটিতেই ফিরে যাই : 


১৪৩ 


পিৎজার সাইজ | পিৎজার দাম 
[_ টোকায়) 
6 350/- 
৪ 775/ 
1 1150/ 
141] 1395/ 
18” 1675/ 
টেবিল 10.2.1 


এখানে দেখুন, পিৎজার সাইজ হচ্ছে একটি ডাইমেনশন এবং পিৎজার দাম হচ্ছে আরেকটি 
ডাইমেনশন যেদিও পিজার দামকে আসলে ঠিক ডেটার ডাইমেনশন হিসেবে সরাসরি ধরা যাবে 
না, তবু এখানে ধরে নিচ্ছি বোঝানোর সুবিধার্থে)। 
এখন আমরা যদি শুধু পিংজার সাইজ কিংবা পিতজার দাম নিয়ে কাজ করতাম, তাহলে আমরা 
ব্যবহার করতাম ভ্যারিয়েন্স। কিন্তু যদি আমরা বের করতে যাই যে, পিৎজার সাইজ বাড়ার সঙ্গে 
সঙ্গে কি পিতজার দাম বাড়ছে, নাকি কমছে, ইত্যাদি, অর্থাৎ দুটি ভিন্ন ভিন্ন ডাইমেনশনের ডেটার 
মধ্যেকার সম্পর্কটি আসলে কী, সেটি যদি চাই, তাহলে আমাদের 
থা বুঝতে ব্যবহার করতে হবে 
কোভ্যারিয়েন্সকে লেখা হয় এভাবে _ ৫০৮ (,%); এখানে % হচ্ছে প্রথম ডাইমেনশনের 
ডেটাসেট, % হচ্ছে দ্বিতীয় ডাইমেনশনের ডেটাসেট। এটি বের কর অনেকটাই 
ভ্যারিয়েন্ের সূত্রের মতো _ | রি 


0০৮০%,%) 5 2,047)04-7) 
জি 


এখন, ০০৮,/)-এর মান যা-ই আসুক, সেটি আমাদের মাথাব্যথা নয়। আমাদের শুধু দেখতে 
হবে যে, মানটি ধনাত্মক, শুন্য নাকি খণাত্বক। 


* যদি মান ধনাত্বক হয়, তাহলে আমরা বলতে পারব যে ডাইমেনশন দুটি ধনুক 
সম্পর্কযুক্ত বা পজিটিভলি কোরিলেটেড (02051061 0077:61990) পন কি 
বাড়লে অন্যটির মান বাড়বে, একটির মান কমলে অন্যটি কমবে। 

রর আবার,মান যদি খণাক হয়, তাহলে আমরা বলতে গার যে এরা খাত সপ 

নেগেটিভলি কোরিলেটেড 0398৭0৮৫1 0০77619060) অর্থাৎ একটির মান বাড়ে 
অন্যটির মান কমবে। 


১৪৪ 


য় ১০: প্রিন্সিপাল কম্পোনেন্ট এ 
অধ্যায় ১ আ্যানালাইসিস 0770159] 0০7100767/8791555 - ০০৪) 


৪ সবশেষে, যদি মান শূন্য আসে, তাহলে বুঝে নিতে হবে যে এই দুটি ডাইমেনশনের মধ্যে 
আসলে কোনো ধরনের সম্পর্ক নেই, তারা পরস্পর স্বাধীন বা ইনডিপেনডেন্ট 
(0706199770677)। 


আরেকটি বিষয় মনে রাখতে হবে, যদি আমরা ॥ ডাইমেনশনের সঙ্গে এর নিজেরই কোভ্যারিয়েন্স 
হিসাব করি, অর্থাৎ যদি ০০৮ (,%) নিই, তাহলে আমরা এই % ডাইমেনশন বরাবর ভ্যারিয়েন্স 
পেয়ে যাব। 

এখন আসি কোভ্যারিয়েন্স ম্যাট্রিক্স (0০৮৪1191706 14901)-এ। আমরা ইতিমধ্যেই জা যে, 
কোভ্যারিয়েন্স ম্যান্রিক্স শুধু দুটি ডাইমেনশনের মধ্যেকার সম্পর্ক নিয়ে কাজ করে। এখন, ধরা 
যাক, আমাদের ডাইমেনশন আছে তিনটি কিংবা তারও বেশি। তখন কী করা? তখন সবগুলো 
ডাইমেনশনের মধ্যে থেকে দুটি দুটি করে নিয়ে আমাদেরকে তাদের কোভ্যারিয়েন্স বের করতে 
হবে এবং সেগুলো নিয়ে কাজ করতে হবে। যখন, এমন অবস্থা থাকবে, তখন আসলে 
কোভ্যারিয়েন্স ম্যাট্রিক্স তৈরি করে নিতে হয় এবং তাতে প্রতি জোড়া ডাইমেনশনের মধ্যেকার 
কোভ্যারিয়েন্সের মান রাখতে হয়। 


যেমন, ধরা যাক, আমাদের ডাইমেনশন এখন তিনটি _ /, % এবং ?। তাহলে আমাদের 
কোভ্যারিয়েন্স ম্যাট্রিক হবে এরকম _ 
0০৮৫%, 4) 0০৮%, ৮) ০০৮৫, 4) 
0 | 0০৮৫, %) 0০৮৮, ৮) ০০৮৫৮, 4) 
0০৮৫, %) 0০৮৫, ৮) 0০৮02, 2) 


এখানে উল্লেখ্য যে ৫০৮৫, %) ও 6০৮, %) আসলে একই মান। 


পরিচ্ছেদ ১০.৩ : আইগেনভ্যালু (186752106) ও আইগেনভেক্টর 


(21527560105) 


পরিশেষে, পিসিএ পড়ার আগে আমাদের শেষ আরেকটি বিষয় একটু জানতে হবে এবং এটিই 
হচ্ছে সবচেয়ে গুরুত্ৃপূর্ণ বিষয়। এটি ভালোভাবে বুঝাতে হবে। এটি হলো আইগেনভেষ্টর 
(818০7590007) ও আইগেনভ্যালু 021897৮81855)। আগে খুব সহজ করে ধারণাটি দিই, 
এরপরে কীভাবে এ দুটি হিসাব করতে হয় তা বর্ণনা করছি। 


নিচের ম্যাট্রিক শুণনটি দেখি _ 
৫ 3)*()-0৯)-+*) 


১৪৫ 


স্ব 


মেশিন লানিং আালগরিদম 

এখানে আমরা যেটি করলাম, তা হলো একটি 2 ৯ 2 ম্যাট্রিজকে একটি কলাম ভে নি 
করলাম, করে আমরা (12) পেলাম। এতটুকু পর্যন্ত খুব সহজ, সাধারণ নল | 
, করে আমরা (1: সাধারণ যা গুনের | 
পরবতী সময়ে দেখুন এই ফলাফলটিকে আমরা "আবার আমাদের পরম যেই ফনায় রি 
(9) সেটির একটি পূর্ণ সংখ্যার গুণিতক আকারে লিখতে পারলাম, অর্থাৎ এই পুরোনো বলই ; 


ভেষ্টরটিকে একটি ইন্টিজার দিয়ে গুণ করেই আমরা আমাদের ফলাফল শা পেয়ে মি 
এরকম ক্ষেত্রে, (3)-কে বলা হবে এই (£ রী ্যাট্রিকের একটি আইগেনভেন্টর এবং 4-কেনদ 


হবে (2 3) ম্যাট্রিক্সের একটি আইগেনভ্যালু। 


পন. 

আইগেনভেক্টরের কিছু গুরুত্বপূর্ণ ধর্ম_ 

* আইগেনভেক্টর সব সময় % ১7৮ অর্থাৎ বর্গ বা স্কয়ার ম্যাট্রিক্সের থাকে। 

* সব স্কয়ার ম্যান্রিক্সের আইগেনভেক্টর থাকে না। 

* কোনো 7, *% ম্যাট্রিক্সের যদি আইগেনভেক্টর থাকে, তাহলে আইগেনভেক্টরের সংখা 
হবে 7-সংখ্যক, অর্থাৎ যদি 3 » ও ম্যাট্রক্স হয়, তাহলে তার 3টি আইগেনভেষ্টর থাকতে 
পারে। 

* প্রতিটি আইগেনভেক্টর একে অপরের ওপরে লম্ব 0661799770100191)। 

* প্রতিটি আইগেনভেক্টরের সঙ্গে একটিমাত্র আইগেনভ্যালু জড়িত থাকবে। 

এই গেল মোটামুটি আইগেনভেক্টর ও আইগেনভ্যালু সম্পর্কে একটি প্রাথমিক ধারণা। এপুলে 
লিনিয়ার আযালজেবরা কোর্সে আরো বিষদভাবে জানতে পারা যাবে, যেটি আপাতত আমাদের এই 
বইয়ে সংযুক্ত করা হচ্ছে না। 

এখন, কীভাবে আইগেনভ্যালু ও আইগেনভেন্টর বের করতে হয় সেটি একটু হাতে-কলমে দেখ 
যাক। একটি কথা মনে রাখতে হবে যে, 2৯2 কিংবা 3 ৯3 ম্যাট্রিক্সের আইগেনভেইর ২ 
আইগেনভ্যালু হয়তো হাতে-কলমে কিংবা কোড করে বের করা সম্ভব, কিন্তু এর চেয়ে উর 
ডাইমেনশনের ্া্রিকসের আইগেনভ্যালু ও আইগেনভেন্টর বের করতে হলে অবশাই উচিত ঘর 
কোনো সফটওয়্যার লাইব্রেরি কিংবা প্যাকেজ ব্যবহার করা। কেননা এগুলো হাতে-কলেবি 
করা একেবারেই অপ্রয়োজনীয় এবং কষ্টসাধ্যও বটে। আমি শুধু বোঝার সুবিধার্থে এখানে এ 
2৫ ম্যাট্রিক্সের আইগেনভেন্টর ও আইগেনভ্যালু বের করে দেখাচ্ছি। 


ধরা যাক, আমরা নিচের ম্যাট্রিক্সের আইগেনভেন্টর ও আইগেনভ্যালু বের করব - 


এ ্ 


তহলে আমরা পেয়ে গেলাম আমাদের (7 1) 


অধ্যায় ১০: প্রিন্সিপাল কম্পোনেন্ট আ্যানালাইসিস (9110010)থ1 0011)010916/5781515 - 20) 


প্রথমে ধরে নিতে হবে যে আইগেনভ্যালু হচ্ছে 9 এবং একে একটি 2 % 2 আইডেনটিটি 
মযা্রিক্স 00570 11919) দিয়ে গুণ করতে হবে, যেহেতু আমাদের / ম্যন্রিক্সটি 2 % 2 
সাইজের। তাহলে আমরা পাই - 


%৮206 20506 2) 
এরপরে আমাদের বের করতে হবে, 
/ _ 
4-9-(ও সা 2)- (727 এ] 
তৃতীয় ধাপে এসে, আমাদের বের করতে হবে ৫০6৫ -91), অর্থাৎ (724 _ 37) 
এরনির্ণায়ক। এটি আমরা সবাইই করেছি ছোটোবেলায়। নির্ণায়কটি দাঁড়ায়, 
0-)১৫1-9)- 3.3 -9৩-69-16 
আমাদের এখন 7৫ _ 6)._ 16 ₹ 0 সমীকরণটি সমাধান করতে হবে। সমাধান করে পাই, 
75 ৪,_2 
এই ৪ এবং _2 ই হচ্ছে আমাদের 2 % 2 ম্যাট্রিক্সের আইগেনভ্যালু। এখন শুধু আইগেনভেক্টর 
বের করা বাকি। 
১ লু সণ উঠ 
৪ ধরে পাই, (7 2 তু লি 9) 
এখন ধরি, % ₹ (5) হচ্ছে আমাদের আইগেনভে্টর, যার জন্য আইগেনভ্যালু হচ্ছে ৪1 
সুতরাং এখন আমরা (71 3) (%:) » (8) এই সমীকরণটি সমাধান করলেই 1: এর 


ও. -9/ ৩৪ 
মান পেয়ে যাব। 
স্ব 3819 0 টা 
ঃ 39) (৫) - (9) এখান থেকে আমরা পাই দুটি সমীকরণ 
794 4352 ল 0 
354 922 ল 0 
এখন এই দুটি সমীকরণ সমাধান করে আমরা খুব সহজেই পাই, &। ₹ 3 এবং» 4 


সুতরাং প্রথম আইগেনভ্যালু ৪-এর জন্য আইগেনভেসীর হচ্ছে (3)। 
একই পদ্ধতিতে আমরা আইগেনভ্যালু -2-এর জন্য সমাধান করে পাই, আইগেনভেষ্টর হচ্ছে 


ম্যাট্রিক্সের দুটি আইগেনভেষ্টর এবং 


আইগেনভ্যালু। এরপর আমরা সরাসরি চলে যাব আমাদের পিসিএ-তে। 


মেশিন লার্নিং আলগরিদম 
পরিচ্ছেদ ১০.৪ : কীভাবে প্রিন্সিপাল কম্পোনেন্ট আযানালাইসিস করতে হয় 
এবার আমরা দেখব কীভাবে ধাপে ধাপে পিসিএ প্রয়োগ করে, ডেটাসেটের ডাইমেনশন কিযে 


আনা যায়। 
ধরা যাক, আমাদের নতুন ডেটাসেট এরকম : 


ডেটাসেটের দুটি ডাইমেনশন হচ্ছে % ও %। আমরা এখন নিচের ধাপগুলো অনুসরণ করব : 


০ প্রথমেই আমরা যেটি করব, সেটি হচ্ছে ডেটা আ্যাডজাস্টমেন্ট। এই ধাপে, আমরা মূলত প্রতিটি 
ডাইমেনশনের সব ডেটা থেকে ওই ডাইমেনশনের গড়মান বিয়োগ করে দেব। অর্থাৎ 14 
প্রতিটি মান থেকে এদের গড়মান 1.81 বিয়োগ করে দেব, একইভাবে ঘ-এর প্রতিটি মান 
থেকে এদের গড়মান 1.91 বিয়োগ করে দেব। এর ফলে, % ও % ডাইমেনশনের ডেটার 


গড়মান 0 হয়ে যাবে। 
এখন তাহলে, নতুন ডেটাসেট দাঁড়াবে এরকম : 


অধ্যায় ১০ : প্রিন্সিপাল কম্পোনেন্ট আযানালাইসিস (0170190] 00111010670/51781515 - ১০) 


9.09 0.29 
1.29 1.09 
0.49 0.79 
-0.31 
_0.81 
-0.31 
-1,01 
টেবিল 10.4.2 


মানগুলোকে গ্রাফ 10.4.1-এ দেখানো হলো : 


গ্রাফ 10.4.1 


* এর পরের ধাপে আমরা এই ডেটাসেটের জন্য কোভ্যারিয়েন্স ম্যান্্িক্স তৈরি করব। 
কোভ্যারিয়েন্স ম্যাট্রিক্স কীভাবে তৈরি করতে হয়, সে সম্পর্কে আমরা আগেই বলেছি। 
আমাদের এই ডেটাসেটের ক্ষেত্রে, কোভ্যারিয়েন্স ম্যাদ্রিক্সটি হবে _ 


[৮ 1 নন সসাদগ 
0.615444444  0.716555556 


এই কোভ্যারিয়েন্স ম্যাট্রিক্স থেকে আমরা দেখতে পাচ্ছি যে, ০০৮৫, %)-এর মান ধনাত্বক। 
সুতরাং বলা যায় % -এর মান বাড়ার সঙ্গে সঙ্গে /-এর মান বাড়ছে। 


১৪৯ 


মেশিন লার্নিং আযালগরিদম 
আমাদের এই কোভ্যারিয়েন্দ ম্যাট্রিক্দের আইগেনভে্টর ও আইগেডান 
[ তিমধ্যেই দেখে ফেলেছি কীভাবে আইগেনভেষটর ও আইগেনভা্ 
হয় ঘদি আপনারা হাতে-কলমে বা কোড করে এগুলো বের ব 
র কোনো লাইব্রেরি বা মডিউল ব্যবহার করেন। তাহ 


এর পরের ধাপে 


নং 


আমি এখানে সরাসরিই 
0.490833989 


/( 1.28402771 
_0.735178656 ২4০ 
ভেঠর, ( 0.67787339গ -_0.735178656 


গ্রাফ 10.4.1-এ খেয়াল 

আমাদের আইগেনভেক্টর - 
48৭, 

-0.735178656 

এবং ?2 হচ্ছে আমাদের অপর 

শি 178656) 
0.677873399 
আরো লক্ষ করবেন, ৮1 অক্ষ 


বরাবর আমাদের ডেটাসেটের মানগুলো বেশি ছড়ানো, কিরু 
সেই তুলনায় ৮2 অক্ষ বরাবর আমাদের মানগুলো তুলনামূলকভাবে অনেক কম ছড়ানো! 
এই ব্যাপারটি আইগেনভ্যালু থেকেও বোঝা যায়। যে আইগেনভ্যালুর মান বড়ো, সেই 
আইগেনভ্যালুর সঙ্গে সম্পৃক্ত আইগেনভেক্টরের অক্ষ বরাবর ডেটা বেশি ছড়ানো থাকবে৷ 
 আইগেনভ্যাল দুটির মধ্যে, যেটির মান বড়ো এখানে দ্বিতীয়টি), সেই আইগেনভ্যাটি নিযে 
আমরা কাজ করব। যদি আরেকটু জেনারালাইজ করে বলি, তাহলে আমরা যতগে 
আইগেনভ্যালূ পাব, সেগুলোকে বড়ো থেকে ছোটো এই ক্রমে সাজাতে হবে। এরপর যদি 
ইচ্ছা হয়, তাহলে আমরা এখান থেকে যেই আইগেনভ্যাুগুলো কম গুরুত্বপূর্ণ অর্থাৎ যাতে 
মান ছোটো চাইলে সেগুলো বাদ দিয়ে বড়ো মানবিশিষ্ট আইগেনভ্যালগুলো শুধু রেখে দিতে 
পারি। এতে যদিও আমাদের কিছু তথ্য হারিয়ে যাবে বা ইনফরমেশন লস 090 
টস ১-৯ জজ সঞপৃগ্পী 
ডাইযেনশনের ডেটাই থাকবে যেগুলো ওই ডেটাসেটকে উপস্থাপন করার জন বে 


১৫০ 


খারা 


ল (-0.677873399 -0.735178656) »* 


_ (-0.827 1777 -0:992 


- ভিন্দিপাল কম্পেনেন্ট আনলইলীল 0 
অধ্যায় ১০: এ ৯ স্যসলাহসস (সা) 
031 6০710]]10 80315515 - ৮০৪) 


ভামাদের এই ক্ষেত্রে আমরা ধরে নিচ্ছি 
টা 'শাচ্ছ যে, আমরা দ্বিতীয় আইগেনভ্যালুটি রেখে দিয়ে প্রথমটি 
এখন আমাদের একটি ফিচার ভেক্টর তৈরি 
টির খাজা জল নার 
৯১৯০ ২৮১ 
আইগেনভেক্টরটি নিয়েই আমাদের ফিচার 
এ ভেক্টর তৈরি করব। তাহলে আমাদের 
জিপ 
_0.735178656 


ছিল এটি যে, আমরা আমাদের ডেটাসেটের ডেটার ডাইমেনশন কমিয়ে নিয়ে আসব, যাতে 
আমাদের কম্পিউটেশনাল কমপ্লেক্সিটি (00770030071 007701631/) কমে আসে। 
নতুন ডেটা পাওয়ার সূত্র হচ্ছে_ 


10710110066. 2 (782076 1০০০7) ৯ 00৫6244)45007 


069 -_1-31 0-39 0.09 129 0.49 0.19 -0-৪1 -0.31 -0.7] 
0.49 -_1.21 0.99 0-29 1.09 0.79 -3.1 0:৪1 _0.31 -1.01 
5. _0.912 0.099 1144 0.438 1.223) 


-0.274 1:67 


গ্রাফ 10.4-2 


১৫১ 


মেশিন লার্নিং আলগরিদম 


এখানে যেটি করা হলো যে, আমাদের ডেটাসেটকে শুধু ৮1 অক্ষের ওপরে প্রোজেক্ট (১০) 
করা হলো এবং এর ?2 অক্ষ বরাবর ওই ডাইমেনশনে যাবতীয় যা ডেটা ছিল, সব মুছে ফেট 


হলো। 
আমরা যদি এখন আমাদের 7৮1 অক্ষকে এ রোটেট 0২০৪০) করে /- 
কটু 0২০৪০) অক্ষের ওপর প্রতিস্থাপন 


করি এবং সেইসঙ্গে 22 অক্ষকে %-অক্ষের ওপর প্রতিস্থাপন করি, তাহলে আমরা আমাদের সর্বশেষ 
ডেটা পাই এরকম গ্রোফ 10.4.2)। 

এই ডেটাই আমাদের নতুন ডেটাসেট যার ডাইমেনশন একটিই। এই ডেটাসেট দিয়েই পরবর্তী 
সময়ে আমাদের যাবতীয় মেশিন লার্নিংয়ের কাজ করতে হবে। 

এখানে আরেকটি বিষয় উল্লেখ্য যে, পিসিএ আমরা ডেটার ডাইমেনশন কমানোর কাজে ব্যবহার 
করা ছাড়াও ফিচার এক্টক্্যাকশন (5690075 [75:000090)-এর কাজেও ব্যবহার করতে পারি। 
তার বিস্তারিত আলোচনায় গেলাম না, কিন্তু জেনে রাখাটা ভালো। 


পি 


গারসেপট্রন (06970979001) _ নাম শুনেই মনে হচ্ছে বেশ ভারিক্কি কিছু একটা, তাই না? 
আগলেই, এটিকে বেশ রাজকীয় আ্যালগরিদমই বলা চলে। পারসেপট্রন (সাধারণত পারসেপট্ট্রন 
বলতে 57819 1:25 পারসেপ্ট্রনকে বোঝায়) একটি বাইনারি ক্লাসিফায়ার আযালগরিদম। 
বাইনারি ক্লাসিফায়ার মানে হচ্ছে, এটি নির্ধারণ করতে পারে যে, কোনো বন্ত কোনো একটি নির্দিষ্ট 
ক্লাদেরকিনা। হদি দুইয়ের অধিক ক্লাস থাকে, সে ক্ষেতে এই সিংগেল লেয়ার পারসেপ ব্যবহার 
করা হয় না। এটি এক ধরনের লিনিয়ার ক্লাসিফায়ার এবং সুপারভাইজড লার্নিংয়ের মাধ্যমে 


ব্যবহৃত হয়ে থাকে। 
এই পারসেপট্রন প্রথম উড্ভাবন করা হয় 1957 সালে কনের্ল আযারোনটিক্যাল লযাবরেটারি 
/21077/)-তে। এর উদ্ভাবক ছিলেন ফ্র্যাংক রোসেনব্ল্যাট 


(09779 14279727005/ £2%০. 
(থা 058701806 1928-1971)। একটি খুব মজার খবর বলি, 1957 সালে যখন এই 


পারসেপ্টুন প্রথম ব্যবহৃত হয়, তখন থেকেই ধীরে ধীরে কম্পিউটার ও মেশিন লার্নিংয়ের ভবিষ্যৎ, 
কম্পিউটারের ছ্ারা মানুষের পরাজিত হয়ে বিলুপ্ত হয়ে যাওয়ার আশঙ্কা ইত্যাদি ধারণা মাথাচাড়া 
দিয়ে উঠতে থাকে। সেসবের ওপরে ভিত্তি করেই, সেই সময়ে “দয নিউ ইয়কর্টাইমস' (7721427/ 
79/7%715) পত্রিকায় পারসেপট্রন সম্পর্কে লেখা হয় _ "019 61070 ০012) ০16000010 
00100051076 [076 1395] 9509900 ৬1] ১০ ৪019 00 %/811, 09110 568, 79, 
16]0700009105616 9170 196 00175010015 01105 9015091706. 

পরবর্তী সময়ে ধীরে হরে এই সিংগেল লেয়ার পারসেপ্ট্রন থেকেই মাল্টি লেয়র পারসেপট্রুন বা 
নিউরাল নেটওয়ার্কের জন্ম হয়, যা নিয়ে আজকের এই পৃথিবীতে এত মাতামাতি। পারসেপ্রন 
নিরে পড়তে গেলে প্রথমে আমাদের জানতে হবে নিউরন 0৭94707) কী এবং এর আদলে মিল 
রেখে কীভাবে একটি গাণিতিক মডেল তৈরি করা যায়। সেখান থেকে পরবর্তী সময়ে পারসেপ্রন 
সম্পর্কে ধারণা দেওয়া হবে। 


আমরা স্কুল-কলেজে অনেকেই জীববিজ্ঞানে নিউরন সম্পর্কে জেনেছি। নিউরন হচ্ছে আমাদের 
মসতিকের গাঠনিক একক, এক ধরনের কোষ। নিউরন দেখতে কীরকম সে সম্পর্কে মোটামুটি 


একটি ধারণা পাওয়া যাবে নিচের ছবিটি থেকে ছেবি 11.1.1) : 


১৫৩ 


মেশিন লা্দিং আযলগরিদম 


[06171017655 


রি 


০911 3০৫ 


ছবি 11.1.] 


একটি নিউরনের মোট তিনটি প্রধান অংশ থাকে, এর কোষদেহ (০০ ৪০৭), ডেনড্রইট 
(970110০) নামের ছোটো ছোটো শাখা-প্রশাখা, যা কোষদেহ থেকে বের হয়েছে এবং থাকে 
একটি লম্বা দণ্ডের মতো অংশ _ আ্যাব্ন (/০7)। এই আক্রনগুলো আবার পরবর্তী নিউরনের 
ডেনড্রাইটের সঙ্গে আষ্টেপৃষ্ঠে সংযুক্ত থাকে, এই সংযোগকে বলা হয় সিন্যাপস (5)714990)। এই 
সিন্যাপস সংযোগগুলোর কারণেই আমরা চিন্তা করতে পারি, স্মৃতি ধারণ করতে পারি, সিদ্ধান্ত 
নিতে পারি। নিউরনের ক্ষেত্রে ডেনড্রাইটগুলোকে বলা যেতে পারি ইনপুট ঢোকার পথ, আর 
আ্যাব্সনকে বলতে পারি আউটপুট বের হবার পথ। 

এখন, আমাদের মেশিন লার্নিং পড়ার সময় এই জীববিজ্ঞানে পড়ে আসা নিউরনের কাঠামোর সন্ধে 
সামঞ্জস্যপূর্ণ একটি গাণিতিক কাঠামো সম্পর্কে পড়তে হবে, এর নামও নিউরন, শুধু পার্থক্য এই 
যে এটি গণিতে ব্যবহার করা হয় এবং এর ইনপুট, আউটপুটগুলো হয় বিভিন্ন সংখ্যা। 


আমরা এবারে গাণিতিক নিউরনের একটি ছবি দেখে ফেলি ছেবি 11.1.2) : 
এখানে 54,১...১%। ইত্যাদি হলো একটি ট্রেনিং ডেটা পয়েন্টের বিভিন্ন ফিচারের মান। এখানে 
ডেটার ডাইমেনশন 71 
] দিয়ে )-তম ডেটা পয়েন্ট বোঝানো হচ্ছে। আর *। হচ্ছে স্বভাবতই আমাদের প্রতিটি গৌ 
পয়েন্টের সঙ্গে সম্পৃক্ত ওয়েইট-এর মান। 
সহজ ভাষায় এখন বলে দিই পারসেপট্রন কীভাবে কাজ করবে _ 

করা হবে। এই 


টে প্রথমে প্রতিটি ইনপুটের সঙ্গে তার ওয়েইট গুণ হয়ে সবগুলো একসঙ্গে যোগ নেট দখান 
কাজটি করবে ট্রান্সফার ফাংশন 75012000000) নামে একটি ফাংশন দামিংজরদ 
হয়েছে চ' চিহ্ন দিয়ে। এটি একটি আ্যাডার জাংশন (5০০৪7 00001) বা 


১৫৪ 


অধ্যায় ১৯: পারসেপট্রন (৪7০500০7) 
(9001078 10170007)। এর কাজ হচ্ছে, যা ইনপুট পাবে সব যোগ করবে । এর ভেতরে 
ইনপুট হিসেবে দেওয়া হবে 19, :2%/হ “০৮ ইত্যাদি। বরাবরের মতোই আমরা এই 
ওয়েইটগুলোতে প্রথমে র্যান্ডম মান বসাব। এই সামিং জাংশন সবগুলোকে যোগ করে 
আউটপুট দেবে 211 4 5:25/2 ++ 20৮1 একেই আমরা নিট ইনপুট 07901000) 
7০0 হিসেবে চিহিত করেছি। 


৪00৮৭0017 


900৮901017 
ঢ711501 
001100107 


9 
071651010 


ছবি 11.1.2 


পরবর্তী সময়ে এই ॥০10-কে একটি থ্রেসহোল্ড গো1/765810) মানের সঙ্গে তুলনা করা হবে। 
এই তুলনা করার কাজটি করবে আ্যান্টিভেশন ফাংশন (১০0৮9001)50110001) নামে একটি 
ফাংশন। এই থেসহোল্ড মানকে আমরা আপাতত "দিয়ে চিহ্নিত করতে পারি। 
এখানে উল্লেখ্য যে, আমাদের পারসেপট্রন কিন্তু শুধুই একটি লিনিয়ার ক্লাসিফায়ার ছাড়া আর 
কিছুই নয়। যদিও সাধারণত, আ্যাষ্টিভৈশন ফাংশনগুলো সাধারণত কোনো লিনিয়ার 
ফাংশনকে নন-লিনিয়ারিটি দেয়, কিন্তু পারসেপট্রনের ক্ষেত্রে সেটি হয় না (এর কারণ হিসেবে 
বলা যায়, পারসেপ্রনের ইনপুট এবং আউটপুট ছাড়া মধ্যবর্তী আর কোনো গোপন বা হিডেন 
(10467) হিডেন লেয়ার নেই, এ ব্যাপারটি পরবর্তী অধ্যায়ে আলোচনা করা হয়েছে)। 
যদি, 790 অর্থাৎ 5111:5/ ৯ 1, হয়, তাহলে আমাদের পারসেপট্রন আউটপুট দেবে 1, 
নাহলে আউটপুট দেবে 0। এ ধরনের ফাংশনকে ইউনিট স্টেপ ফাংশন 0001৮ 5690 
070007)-ও বলা হয়। 
ছবি 11.1.3-তে একটি ইউনিট স্টেপ ফাংশন দেখানো হয়েছে। 
ধরা যাক, পারসেপট্রন আউটপুট দিল 1 আর ডেটা পয়েন্ট ॥-এর জন্য প্রকৃত আউটপুট 
হওয়ার কথা %। এখন, যদি % _ % হয়, তার মানে কোনো এরর হয়নি, সুতরাং আমাদের 
আর ওয়েইটের মান আপডেট করা লাগবে না। কিন্তু যদি % - 1? না হয়, তখন আমাদের 
ওয়েইটের মানগুলো আপডেট করতে হবে। 

১৫৫ 


. ্ 


মেশিন লার্নিং আলগরিদম 
ওয়েইটের মান আপডেট করার সূত্র হলো _ 
1107 1) _ 10) + ০৫-১5-071৮) 
এখানে, 10 + 1) মানে হচ্ছে নতুন ওয়েইট, 10) হচ্ছে পুরোনো ওয়েইট 
আমাদের সেই লার্নিং রেট, যা আমরা থেডিয়েন্ট ডিসেন্ট আযালগরিদমে পড়েছিলাম, , ইঞছ 
ওয়েইট 10) যে ইনপুটের সঙ্গে সম্পর্কযুক্ত অের্থাৎ, তম ট্রেনিং ডেটা) এবং পি 
হচ্ছে আমাদের এরর। ? 


[0710500) 077951010) 


1 


ছবি 11.1.3 


পরিচ্ছেদ ১১.২: পারসেপট্রন ট্রেনিং দেওয়া 


এখন আমরা সরাসরি কীভাবে একটি পারসেপ্রনকে ট্রেনিং দিতে হয় সেটি দেখব। আমাদের এই 
কাজের জন্য ডেটাসেটটি নিয়রূপ : 


ওপরের টেবিল দেখে অনেকেই হয়তো বুঝে গেছেন, এটি দুটি ইনপুটের ইন 
0,০81 419) অপারেশনের টুথ টেবিল শে007 18)16)। এটিই হবে আমাদের ই 
আউটপুট দেবে; (৫.1) 


আমরা চাই আমাদের এই পারসেপ্ট্রন (0,0) ইনপুট পেলে 0 
পেলে 1 আউটপুট দেবে ইত্যাদি। 


১৫৬ 


| 


অধ্যায় ১১: পারসেপট্রন (১7০12007) 
বন ভালে আসাদের গনি ওরু করা যাক। 
গ্রামরা আমাদের এই উদাহরণের জন্য ধরে নিচ্ছি আমাদের প্রাথমিক ওয়েইট হচ্ছে 0.3 এবং 
31 রেড চবিলে জন্য কোনো ননিত ধরে নিতে পারেন, শূন্য ধরে নেওয়াটা সবচেয়ে 
ডালোবুদ্ধি। এই উদাহরণের জন্য ৫ - 0.1, _ 0-21 


এাাদের ট্রেনিং কোনো রাউন্ডে (০০০) সব এররের মান শূন্য না হওয়া পর্যন্ত চলতে থাকবে। 


প্রথম রাউন্ডে দেখুন, (1,0) ইনপুটের জন্য আউটপুট হওয়ার কথা 0,কিন্তু আউটপুট হলো 1, 


সুতরাং, 01701" ল -1 
আউটপুট 1 হওয়ার কারণ, 

2101 +52%2 5 1৯৫0.3+0 ৯ (0.1) _ 0.2 
আমরা বলেছিলাম, যদি 2101 + 22/2 ২ % হয়, তাহলে আমাদের পারসেপ্ট্রন আউটপুট দেবে 
1,আর নাহলে আউটপুট দেবে 0। যেহেতু আমাদের 7 ক 0.2 ছিল এবং তা 21111 1 202 
রাশিটির সমান, তাই পারসেপ্ট্রনৈর আউটপুট হলো 11 

প্রথম ওয়েইট আপডেট হয়ে দাঁড়াল, 0.3 + [0.1 * 1 % (1)] _ 0.2 এবং 

দ্বিতীয় ওয়েইট আপডেট হয়ে দাঁড়াল,_0.1 + [0.1 % 0% (1)] _ -0.1 
এভাবেই বাকি হিসাবনিকাশ করতে হবে পরের রাউন্ডগুলোর জন্য। এই রাউন্ডেই হিসাব থেমে 
যাবেনা, কেননা আমাদের পারসেপষুন এই রাউন্ডে একবার তুল করেছে। যতক্ষণ পর্যন্ত না এমন 
কোনো রাউন্ড পাওয়া যাবে, যেখানে এই পারসেপট্রন কোনো এরর দেবে না, ততক্ষণ পর্যন্ত 
আমাদের ট্রেনিং চালিয়ে যেতে হবে। 


পরের রাউন্ডের হিসাবনিকাশগুলো দেখে নেওয়া যাক, 


১৫৭ 


টেবিল 11.2.3 


এই রাউন্ডেও দেখুন একবার ভুল আছে, সুতরাং আবারও আমাদের ট্রেনিং দিতে হবে। এখানে 
উল্লেখ্য, এই রাউন্ডের প্রাথমিক ওয়েইট 0.3 এবং 0.0 আমরা পেয়েছি আগের রাউন্ডের সর্বশেষ 
ফাইনাল ওয়েইট থেকে। আরেকটি ব্যপার, এপক (1১০০1) মানে সহজ ভাষায় রাউন্ড নম্বর 
বোঝাচ্ছে। 

তৃতীয়, চতুর্থ ও পঞ্চম রাউন্ড : 


৪০০০৮ ] এ 1 ঘ নর | মঃঞ 
(15127 


9.0 


0.0] 


9.0 


১৫৮ 


অধ্যায় ১১: পারসেপ্রন (১01-0070.01) 


[7০০ [0005 & [01091 চি 
$/6121)5 (৮ 7) 


7 
শ০1৩০1)৩০৩ 


ই পঞ্চম রাউন্ডে এসে আমরা দেখলাম যে আমাদের পারসেপ্রন আর কেনে 
ট্রেনিং দেওয়া এই রাউন্ডেই সমাপ্ত হবে। চাইলে 
আমাদের কষ্ট 0০9) খুব একটা 


গ্রেডিয়েন্ট ডিসেন্ট (:9079500 075016110199502170) পদ্ধতি 


প্রয়োগ করেছি, বুঝতেই পারছেন। গ্রেডিয়েন্ট ডিসেন্ট কীভাবে কাজ করে, এটি যাঁরা ইতিমধ্যেই 
টা ৩.৮ আরেকবার পড়ে নিতে পারেন। 


১৫৯ 


স্থ 


এবার আসি নিউরাল নেটওয়ার্ক কী, সেই আলোচনায়। একটু ভালো করে দেখলেই 

যে নামের মধ্যেই এর অর্থ অনেকখানি লুকিয়ে আছে। নেটওয়ার্ক বলতে মূলত বোঝায় থে 
জিনিসের একটি সম্টি, যেখানে প্রত্যেকে প্রত্যেকের সঙ্গে কোনো-না-কোনোভাকেংলে 
(সেরাসরি কিংবা অন্য কোনো কিছুর মাধ্যমে)। যেমন, কম্পিউটার নেটওয় বলতে টউ 
অনেকগুলো কম্পিউটার একে অপরের সঙ্গে বিভিন্ন ধরনের তার (যেমন 1,ব-এর তার হা 
পারে) এবং বিভিন্ন ডিভাইস (যেমন হাব, রাউটার, সুইচ ইত্যাদি) দিয়ে যুক্ত থাকে এব হতে 
কম্পিউটার আরেকটি কম্পিউটারের সঙ্গে তথ্য আদান-প্রদান করতে পারে। নি 


নিউরাল নেটওয়ার্ক হচ্ছে নিউরনের নেটওয়ার্ক (একটু আগে আমরা যে নিউরনের ব্যাপার 
পড়লাম), যেখানে নিউরনগুলো একে অপরের সঙ্গে যুক্ত থাকে এবং একে অপরের সঙ্গেত্খ 
আদান-প্রদান করতে পারে। নিউরনগুলো এক বা একাধিক লেয়ারে সাজানো থাকে। তা 
হিসাবনিকাশ করা হয় লেয়ার অনুযায়ী (প্রতি লেয়ারে আলাদা হিসাব) এবং তথ্য আদান গ্রদান 
হয় এক লেয়ার থেকে আরেক লেয়ারে। একটি খুব সাধারণ নিউরাল নেটওয়ার্কের ছবি নিচে দেওয়া 
হলো ছেবি 12.1.1) : 


1110061) 


1001)0071 


[1]09072 


110007%3 


[0000 74 


নি্টরাল নেটওয়ার্ক অনেক ধরনের হয়। সবচেয়ে জনপ্রিয় ও বহুল ব্যবহৃত নিউরাল নেটওয়ার্ক 
হলো ফিড ফরওয়ার্ড ব্যাকপ্রোপাগেশন নিউরাল নেটওয়ার্ক (769৫ 1707%/270 
0501/1099891107 1৩01411০0/011)। বিশাল খানদানি এক নাম, দেখেই বোঝা যাচ্ছে এটি 
বেশ জবরদস্ত কিসিমের নিউরাল নেটওয়ার্ক। নিউরাল নেটওয়ার্কগুলোর মধ্যে কিছু ভাগ আছে। 
নাম দেখে ভয় পাওয়ার কিছু নেই। 


ফিড ফরওয়ার্ড বলতে মূলত বোঝায় ফরওয়ার্ড প্রোপাগেশন (707/97019-0889001), অর্থাৎ 
সামনের দিকে কোনো কিছু পাঠানো। এটি এক ধরনের আযালগরিদম। আবার ব্যাকপ্রোপাগেশন 
মানে হলো পেছনের দিকে কিছু পাঠানো, তাই না? ঠিক তাই। এটিও এক ধরনের আ্যালগরিদম। 
সাধারণত এই দুই ধরনের আযালগরিদম ব্যবহার করে একটি নিউরাল নেটওয়ার্কে ট্রেনিং দেওয়া 
হয়। 


আগের অধ্যায়ে আমরা দেখেছি কীভাবে পারসেপ্ট্রনকে ট্রেইন করাতে হয়, একইভাবে এই 
নিউরাল নেটওয়ার্ককেও আমাদের ট্রেইন করাতে হবে। 


ট্রনিংয়ের দুটি ধাপ, প্রথম ধাপ হলো ফরওয়ার্ড প্রোপাগেশন। এই ধাপে আমরা নিউরাল 
আউটপুট দেবে। অর্থাৎ ফিড ফরওয়ার্ডের ইনপুট হচ্ছে আমাদের ইনপুট ভেক্টর, আর আউটপুট 
হচ্ছে আমাদের আউটপুট লেয়ারের আউটপুট ভেক্টর। 


আবার, দ্বিতীয় আযালগরিদম হলো ব্যাকপ্রোপাগেশন, যেখানে নিউরাল নেটওয়ার্ক তার আউটপুট 
লেয়ারে যে আউটপুট দেয় সেটি প্রকৃত আউটপুটের সঙ্গে মিলিয়ে দেখা হয় যে সেটি ঠিক হয়েছে 
না ভুল। যদি ঠিক হয়ে থাকে, তাহলে আর ওয়েইটের মান আপডেট করার দরকার হয় না। কিন্তু 
যদি ভুল হয়, তাহলে অবশ্যই আমাদের ওয়েইটের মান আপডেট করতে হবে। পদ্ধতিটি অনেকটাই 
পারসেপট্রনকে ট্রেইন করার সঙ্গে মিলে যায়। পারসেপট্রনের সঙ্গে পার্থক্য এই যে, পারসেপড্রনে 
একটিই নিউরন ছিল, আর এই নিউরাল নেটওয়ার্কে অনেকগুলো নিউরন আছে। 


তাহলে ব্যাকপ্রোপাগেশনে ইনপুট হচ্ছে আমাদের ফিড ফরওয়ার্ড থেকে পাওয়া আউটপুট ভেষ্টর 
এবং আমাদের প্রকৃত আউটপুট ভেক্টর। আর এই ব্যাক প্রোপাগেশনের আউটপুট হচ্ছে নিউরাল 
নেটওয়ার্কের আপডেট করা নতুন ওয়েইট ভেক্টর 


১৬১ 


মেশিন লার্নিং আযলগরিদম 
যদি এমন হতো যে আমাদের নিউরাল নেটওয়ার্কটি আগে থেকেই ট্রেইন করা, একে আমাদের 
রনি দিরে লেখযাজাগবে নাবালিকাকে ইন রাম ভাবাদার রৌআামামিরাআীদু 
দেবে, তখন সেই নিউরাল নেটওয়ার্কটির নাম হতো ফিড ফরওয়ার্ড নিউরাল নেটওয়ার্ক। ভাতে 
কোনো ব্যাকপ্রোপাগেশন আযালগরিদম থাকত না, যেহেতু ট্রেনিং করে ওয়েইটের মান আপডেট 
করার মতো কোনো ব্যাপার নেই। শুধু ফিড ফরওয়ার্ড আযালগরিদমের মাধ্যমে ইনপুট থেকে 
আউটপুট বের করা হতো। 


নিউরাল নেটওয়ার্কের বিস্তারিত বিবরণ এখানে দিচ্ছি না। আসলে নিউরাল নেটওয়ার্ক নিজেই 
এখন মেশিন লার্নিংয়ের একটি অনেক বড়ো শাখা হয়ে দাঁড়াচ্ছে। তাই ঠিক করেছি যে, নিউরাল 
নেটওয়ার্ক নিয়ে সম্পূর্ণ আলাদা একটি লেখা লিখব। সেখানে নিউরাল নেটওয়ার্ক, ডিপ নিউরাল 
বিশদ বর্ণনা থাকবে। এই বইয়ের জন্য আপাতত নিউরাল নেটওয়ার্ক পরিচিতি এটুকুই। 


১৬২ 


ট্গ 


অধ্যায় ১৩: পারফরম্যান্স (69::0010791706) 


আমরা এ পর্যন্ত যতগুলো মেশিন লার্নিং আযালগরিদম দেখলাম, সবগুলোই তিনটি ভাগের মধ্যে 
কোনো একটিতে পড়ে _ 

রি কলাসিফিকেশন : লজিস্টিক রিগ্েশন, সাপোর্ট ভে্টর মেশিন, কে-নিয়ারেস্ট নেইবরস, 

নাইভ বেইজ ক্লাসিফায়ার, ডিসিশন ট্রি, পারসেপ্রন এবং নিউরাল নেটওয়ার্ক 

* ক্লান্টারিং : কে-মিনস ক্লাস্টারিং 
এ ছাড়াও এর বাইরে, ডেটার ডাইমেনশন কমিয়ে আনার জন্য আমরা দেখিয়েছি প্রিন্সিপাল 
কশ্পোনেন্ট আযানালাইসিস। 
আমাদের বইতে আমরা এতক্ষণ পর্যন্ত শুধু দেখেছি আ্যালগরিদমগ্লো কীভাবে ডেটাসেটের ওপরে 
বাহার করতে হয়। কিন্ত, আ্যালগরিদমগ্ডলো আদৌ ভালো কাজ করছে কি না, অথবা করলেও 
কুক ভালো কাজ করছে তা-ও তো বোঝা দরকার। কিংবা ধরি, যদি ডেটাসেটের ওপরে 
একাধিক ক্লাসিফিকেশন ত্যালগরিদম আমরা প্রয়োগ করি, তাহলে কোন আ্যালগরিদম সবচেয়ে 
(76107018708 14900) আছে, এদের সম্পর্কে আমাদের জানা প্রয়োজন। নিচে এদেরকে 
একটি টেবিল আকারে দেওয়া হলো : 


[১6701702170 116005 


7-_5009790 91016 


001715101) 14901, 4১0001805,  190151017, 
[২০০91], 909016010/, 1 1485011-8, 00 ০07৮৪ 


| 7100৬/1160700 
টেবিল 13. 


এখানে উল্লেখ্য, 819০৬/ 1190700 ঠিক কোনো পারফরম্যান্স মেদ্রিক নয়, বরং কে-মিনস 
্লা্টারিং-এর 1অর্থাৎ ক্লাস্টার সংখ্যার অপটিমাল মান বের করার পদ্ধতি। 


মেশিন লার্নিং আলগরিদম 
এটি কে-মিনস ব্লাস্টারিং-এর অধ্যায়ের সঙ্গে জুড়ে না দিয়ে আলাদা করে দেওয়ার পেছনে কারণ 
হচ্ছে, যাতে একটু আলাদা করে চোখে পড়ে। পদ্ধতিটি একটু ভিন্ন এবং অত্যন্ত গুরুত্বপূর্ণ। তাই 
এটি এই অধ্যায়ে আলোচনা করা হয়েছে। 


তো শুরু করা যাক! 


পরিচ্ছেদ ১৩.১: আর-ক্কয়ারড ভ্যালু 0২-5002190 9910) 


আমাদের প্রথম কে-মিনস ক্লাস্টারিং হলো আর-্ষয়ারড ভ্যালু 03-5089790 ৬9116)। এটি মূলত 
ব্যবহার করা হয় কোনো রিগ্রেশন মডেল কত ভালোভাবে কাজ করছে, সেটি নির্ণয় করার জন্য। 
এই £-5৭এ৪1৪৫-এর মান যত বড়ো হবে, বুঝতে হবে যে আমাদের রিগ্রেশন মডেল তত ভালো 
কাজ করেছে, কিংবা ডেটাতে তত ভালো ফিট করেছে। 


এটি বের করার সূত্র হচ্ছে - 
8৬ চা (07 5) 
১৮ 0 এ 7)2 


এখানে 9, 7 এবং 2% হচ্ছে যথাক্রমে আমাদের মডেলের আন্দাজ করা প্রতিটি মান, সমস্ত প্রকৃত 
আউটপুট মানের গড়মান এবং প্রতিটি প্রকৃত আউটপুটের মান। 


বেমন ধরি, আমাদের রিগ্রেশন মডেল একবার চালানোর পরে আমরা পাই : 


১৬৪ 


অধ্যায় ১৩: পারফরম্যান্স 06101717210) 
₹ এই ক্ষেত্রে ৪2 ₹ ২ 0.6  60% যেটি কিনা কিছুটা মধ্যমগোছের পারফরম্যান্স! 
মান 1-এর যত কাছাকাছি যাবে, আমরা ধরে নেব, আমাদের মডেল তত নিখুতভাবে মান 


ই 
পারছে অর্থাৎ মডেলের আ্যাকুরেসি ৫১০০//৪০%) তত ভালো হচ্ছে। 


পরিচ্ছেদ ১৩.২ : কনফিউশন ম্যা্রিক্স 00০01051011 719015) 


প্রথমেই বলে রাখি, কনফিউশন ম্যান্রিক্স (0০07195107) [100150 নিজে কোনো পারফরম্যান্স 
মেট্রিক নয়, কিন্তু ্লাসিফিকেশনের জন্য বাকি যতগুলো পারফরম্যান্স মেট্রিক আছে, সবগুলোই 


তৈরি হয় এই কনফিউশন ম্যাট্রিক থেকে, তাই এটি বোঝা জরুরি। 

ধর, একজন রোগীর সম্পর্কে বিভিন্ন ত্য আমরা কোনো মেশিন লার্নিং জ্যালগরিদমকে ইনপুট 
দিয়েছি এবং সেই আযালগরিদমের কাজ হচ্ছে আমাদের দেওয়া তথ্যের ওপরে ভিত্তি করে এটি 
প্রেডিক্ বা নির্ণয় করা যে, ওই রোগীর ক্যানসার আছে কি না। এখন চিন্তা করে দেখুন, এখানে 
চার ধরনের পরিস্থিতির উদ্ভব হতে পারে : 


শু 05109 79155 চ0510৮6 


9156 135890৮6 শু0৪1358809 


ক্যানসার নেই, কিন্তু আসলে ক্যানসার নেই এবং সত্যিই 


আছে তাই 

টেবিল 13.2.1 

এখন, আরেকটু গুছিয়ে লিখলে ওপরের চার্টটি দাঁড়ায় : 
00091 1089 


10819 
039290) 1 179150 108901/6 


টেবিল 13.2.2 


2106 9890৬০ 


৮৪০ 020510৬9) 03০৪৭0৮৪) 
0১9910৮9) 11709 12091019 [79159 170510৮৪ 


১৬৫ 


মেশিন লার্নিং আযালগরিদম 
। এখন, ভালো করে লক্ষ করবেন, কনফিউশন ম্যা্রিকের ভেতরে আমি 
তন চারটি টার ব্যবহার করেছি। সেগুলোর একটু রণনা দিয়ে নিই: - 
1. ট্রু পজিটিভ পোণএ০ 2০910০) : যখন আযালগরিদম কোনো কিছুকে সত্যি বলে প্রেডিট 
করে এবং সেটি আসলেও সত্যি হয়, তখন ৩ 


এটিই কনফিউশন ম্যান্রিক 


2, ফলস পজিটিভ (79156 70510) : যখন 
প্রেডিন্ট করে, কিন্তু সেটি আসলে সত্যি নয়, তখন তাকে বলা হয় ফলস পজিটিভ। যেমন 


ক্যানসার না থাকে, তখন তাকে বলা হবে ফলস 
3, ফলস নেগেটিভ (79156 92909) : যখন আযালগরিদম কোনো কিছুকে মিথ্যা বলে 


প্রেডি্ট করে, কিন্তু সেটি আসলে 
যদি বলে রোগীর ক্যানসার নেই, কিন্তু দি আসলে রোগীর 


4. উর নেগেটিভ পে 1০891 
টু নেগেটি আসলেই মি্যা হ়, তখন তাকে বলা হয় েগেটিত। যো সার 
এই ক্ষেত্রে, মেশিন যদি বলে রোগীর ক্যানসার নে এবং 


কমানোর পদক্ষেপ নেব। 
র নানীর উদাহরণ থেকে বলি, ফলস গভিটিভ মানে কোনো রা 
ক্যানসার নেই,তাকে ভুল করে বলা হয়েছে তার ক্যাননার আছে। এর ফলেকী হবে,তার ক্যানসার 


না থাকা সত্বেও হয়তো তার ক্যানসারের চিকিৎসা করা হবে। এটি অবশ্যই খারাপ এবং 
রোগীর 


রিপোর্ট নিয়ে খুশিমনে বাসায় চলে যাবে এবং 


সুতরাং দুটোর মধ্ তুলনা করে আমরা দেখতে পাই হে. এই দিত তাহলে ভাতে 
সুতরাং দুটোর মি হবে, তার হযে বরং একটিও যদি ফলস দেখি ৭5 


১৬৬ 


| 


অধ্যায় ১৩ : পারফরম্যান্স (66707121106) 
গরনেক বেশি ক্ষতি হতে পারে, এমনকি মানুষের প্রাণও চলে যেতে পারে, তাই ফলস নেগেটিভ 
কোনোভাবেই এই সিস্টেমে গ্রহণযোগ্য নয়। 


যদি আমরা আ্যালগরিদমকে আমাদের ইমেইল স্প্যাম (50) কি না সেটি যদি চিনতে 
পেখাই, তাহলে সেক্ষেত্রে, ফলস পজিটিভ থাকলে আ্যালগরিদম আমাদের গুরুত্বপূর্ণ ইমেইলগুলো 
লে সপ্যাম ভেবে মুছে দেবে, যার ফলে আমাদের বেশ বড়োসড়ো ক্ষতি হয়ে যেতে গারে। 
আসা ছাড়া আর তেমন কোনো বড়ো ক্ষতি কিন্তু হবে না। সুতরাং এ ক্ষেত্রে আমরা ফলস 
নেগেটিভে কিছুটা ছাড় দিতে পারলেও ফলস পজিটিভ একেবারেই ঘটতে দেওয়া যাবে না। 
আবার যদি আমরা কোনো ফেসিয়াল রিকগনিশন (7৪0 [২০০০£71007)-ভিত্তিক বায়োমেট্রিক 
মিকিউরিটি সিস্টেম (310776010 59০0110/ 55911) তৈরি করি, যেখানে আপনার চেহারার 
সঙ্গে ডেটাবেজে ম্যাচ খুঁজে তবেই আপনাকে কোনো সিস্টেমে ঢুকতে দেবে, সে ক্ষেত্রে আমরা 
কিন্ত ফলস পজিটিভ অেন্য কোনো মানুষকে ভুলক্রমে আপনি মনে করে সিস্টেমে ঢুকতে দিয়েছে) 
কিংবা ফলস নেগেটিভ (আপনার সিস্টেমে ঢোকার অনুমতি থাকা সত্বেও আপনাকে সিস্টেমে 
ঢুকতে দিচ্ছে না) কোনোটাই মেনে নিতে পারব না। দুটিই আমাদের সিস্টেমের জন্য সমানভাবে 
খারাপ। 


তাই, সিস্টেমের চাহিদা অনুযায়ী আমাদের ঠিক করতে হবে, কোনটি মিনিমাইজ করব। 


পরিচ্ছেদ ১৩.৩ :আযাকুরেসি (৫4০০৮৪05) 


কোনো মেশিন লার্নিং আযালগরিদমের আ্যাকুরেসি (8০০০7৪০) হচ্ছে মূলত সে কতগুলো সঠিক 
প্রেউকশন দিতে পারল, তার একটি হিসাব। অর্থাৎ, আমাদের মূল কাজ এখানে হচ্ছে পজিটিভ 
এবংট্রু নেগেটিভ নিয়ে। 


আমরা কোনো মেশিন লার্নিং আযালগরিদমের আযাকুরেসি/০০৪৪০ মাপি এভাবে _ 


[151205106৮5 + 1745 1920 66৮6 
40060) 


সস ২২ 
17৮6 1205166৮2 +50158 705106৮6 + 76155 115000৮6 17742 1129001৮2 . 


রব আমাদের টু পজিটিভ টু নেসেটিজের সংখা মত বেশিহবে আমাদের ভেলের ভ্যাকুরেসি 
বাড়বে। 


কখন আ্যাকুরেসি ব্যবহার করব - এই প্রশ্নের উত্তরে বলা যায়, যদি আমাদের ডেটাসেটের টার্গেট 
ভ্যারিয়েবলগুলো মোটামুটি ব্যালান্সড থাকে, সেই ক্ষেত্রে পারফরম্যান্স মৌষ্ট্রক হিসেবে আ্যাকুরেসি 


১৬৭ 


মেশিন লার্নিং আলগরিদম 
ব্যবহার করতে পারি। অর্থাৎ, ধরা যাক, আমাদের কাছে থাকা 100টি ছবির মধ্যে থেকে আমরা 
বের করতে চাইছি কোনটি আপেল আর কোনটি কমলার ছবি। এখন যদি, এই ডেটাসেটে মোটামুটি 
50% থাকে আপেলের ছবি আর বাকি 50% থাকে কমলার ছবি - এরকম ক্ষেত্রে ত্যাকুরেসি 
ব্যবহার করা যায়। 
কিন্তু যদি, আমাদের ডেটাসেটের টার্গেট ভ্যারিয়েবলগুলো ভালোভাবে ব্যালান্সড না থাকে, তখন 
আ্যাকুরেসি ব্যবহার করা ঠিক হবে না। ধরা যাক, আমাদের কাছে 100 জন সন্তাব্য ক্যানসার 
রোগীর ডেটা আছে, এর মধ্যে 95 জনের (95%) ক্যানসার নেই, আর বাকি 5 জনের (5%) 
সত্যি সত্যিই ক্যানসার ধরা পড়েছে। 
এখন, ধরা যাক, আমরা যেই আযালগরিদম তৈরি করেছি সেটি খুবই অকার্যকর, একেবারেই 
ক্যানসার রোগী ঠিকমতো চিনতে পারে না। সে ক্ষেত্রে সে এই 100 জন রোগীর ক্ষেত্রে আউটপুট 
দেবে যে 100 জনের কেউই ক্যানসারে আক্রান্ত নয়। 


এখন আমরা যদি এ ক্ষেত্রে শুধু আযাকুরেসি মাপি, তাহলে আমরা হয়তো বলে বসব যে আমাদের 
মডেল খুব ভালো, একেবারে 95% আ্যাকুরেসি অর্জন করেছে, কিন্তু আসলেই কি তাই? আমাদের 
5 জন ক্যানসার রোগী ছিল, মডেল একজনকেও চিনতে পারেনি। তার মানে, ক্যানসার নির্ণয়ে সে 
সম্পূর্ণ ব্যর্থ হয়েছে, সুতরাং এ ক্ষেত্রে শুধু আযাকুরেসি দিয়ে মডেলের ভালো/মন্দ বিচার করলে হবে 
না। 


, মোটামুটি এই-ই ছিল আ্যাকুরেসির ধারণা । আশা করি সবাই বুঝতে পেরেছেন। 


পরিচ্ছেদ ১৩.৪: প্রিসিশন (505107) ও রিকল 0২9০211) 
আমাদের পরিচ্ছেদ ১৩.২-এ ব্যবহৃত কনফিউসন ম্যাট্রিক্সটি ছিল এরকম : 


00091 1099 


(0১95101৮9) (০£৭0৮৬০) | 
/ (১0510) | 2109 1505101৮9 [9156 70510৬6 ] 
ত 


1০০ ০8৭0৬৪ 


(400411/9) | 79159 1690৬ 
টেবিল 13.4.2 


প্রিসিশন (7০0510)-এর ধারণাটি আমরা এখান থেকেই নেব। প্রিসিশন মানে হচ্ছে, আমাদের 
ক্যানসারের উদাহরণের সঙ্গে তাল মিলিয়ে যদি বলতে চাই - আযালগরিদম যতজন রোগীকে 


১৬৮ 


অধ্যায় ১৩: পারফরম্যান্স (1১071011009106) 
মসার আছে' বলে ঘোষণা দিয়েছে এবং তাদের সবার মধ্যে, যাদের আসলেই ক্যানসার আছে, 
এদের একটি অনুপাত। 


অর্থাৎ, 


176015101 77716 19510196 


7786 179510196 + 1015 705(0106 


উদাহরণস্বরূপ, ধরা যাক, আমাদের 100 জন সস্তাব্য রোগীর মধ্যে মাত্র 5 জনের আসলেই 
ক্যানসার আছে, বাকি 95 জনের নেই। এখন ধরা যাক, আমাদের আযালগরিদম খুবই অকার্যকর 
এবং সে সবাইকে ক্যানসার রোগী হিসেবে সন্দেহ করছে। সুতরাং, আযালগরিদম রিপোর্ট দেবে যে, 
100 জনের সবাইই ক্যানসার রোগী। অর্থাৎ, 


119 1205161৮6 +- 10156 1051৫ _ 100 
কিন বাস্তবে রোগী হচ্ছে 5 জন, অর্থাৎ, 
16129510096 _ 5 
সুতরাং, 
0০48 
12719095101, » নুটত 0.05 ন 9% 


এখন আসি রিকল (২০০)-এর ক্ষেত্রে কী হবে সেটাতে। রিকল হচ্ছে মূলত আ্যালগরিদম 
সত্যিকারের ক্যানসার রোগীদের মধ্যে কতজনকে ঠিক ঠিক প্রেডিন্ট করতে পেরেছে এবং সত্যি 
সত্যিই কতজনের ক্যানসার আছে (্যোলগরিদম সেটাকে ঠিকমতো প্রেডিক্ট করে থাকুক, কিংবা 


নাই থাকুক) তার একটি অনুপাত। 
অর্থাৎ, 


7746 ৮0580/6 
1790011 _ 


7715৮051056 + 8015 112900156 


এখানে ফলস নেগেটিভও যোগ করার কারণ হচ্ছে, ফলস নেগেটিভদের ক্ষেত্রে সত্যি সত্যি 
ক্যানসার থাকা সত্বেও আ্যালগরিদম তাদের ক্ষেত্রে বলবে যে ক্যানসার নেই। 


যদি, 100 জনের ভেতরে 10 জনের সত্যিই ক্যানসার থাকে এবং তাদের মধ্যে 5 জনকে 
আ্যালগরিদম ঠিক ঠিক বের করে ফেলতে পারে, তাহলে _ 


৯০১ 
76021] নি 2 _ 50% 


১৬৯ 


মেশিন লার্নিং আালগরিদম 
এতক্ষণের আলোচনা থেকে এটি কিন্তু পরিফার বোঝা যাচ্ছে যে, ্রিসিশন কাজ করবে ফলম 
পজিটিভ নিয়ে, অর্থাৎ বোঝাবে যে আমরা কতজন সত্যিকারের ক্যানসার রোগীকে নির্ণয় করতে 
পেরেছি। অন্যদিকে রিকল কাজ করবে ফলস নেগেটিভ নিয়ে, অর্থাৎ আমরা কতজন সত্যিকারের 
ক্যানসার রোগীকে ঠিকমতো বের করতে পারিনি, সেটি বোঝাবে। 


তাই, আমরা যদি চাই আমাদের সিস্টেমের ফলস নেগেটিভ কমাতে, তখন আমাদের চেষ্টা করতৈ 
হবে যে আমাদের রিকলের মান যেন 100%-এর কাছাকাছি নিয়ে যাওয়া যায়। যত কাছাকাছি 
নিতে পারব, আমাদের ফলস নেগেটিভ তত কমে আসতে থাকবে। 


এখানে একটু খেয়াল রাখতে হবে, রিকল বাড়ানোর জন্য, অর্থাৎ, আমাদের যাতে কোনো ক্যানসার 
রোগী বাদ না পড়ে, সেটি নিশ্চিত করার জন্য আমরা কী করব? যত বেশি সম্ভব মানুষকে ক্যানসার 
রোগী হিসেবে প্রেডিক্ট করানোর চেষ্টা করব, তাই না? যত বেশি মানুষ আমরা ক্যানসার রোগী 
হিসেবে নেব, ততই আমাদের আসল ক্যানসার রোগীদের বাদ পড়ার সম্ভাবনা কমে আসবে, ঠিক? 
কিন্তু সেই সঙ্গে দেখুন, ক্যানসারে আক্রান্ত নয়, এমন রোগীও ক্যানসার রোগী হিসেবে চিহ্নিত 
হওয়ার সম্ভাবনা এবং সংখ্যা বাড়তে থাকবে, অর্থাৎ ফলস পজিটিভ বাড়তে থাকবে। তাই রিকল 
বাড়ানোর সঙ্গে সঙ্গে এটিও লক্ষ রাখতে হবে, যাতে প্রিসিশন খুব বেশি কমে না যায়, অর্থাৎ অনেক 
বেশি ফলস পজিটিভ বেড়ে না যায়। 


নু 
০ 
মি 
ভ 
চা 
প্‌ 
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গ্রাফ 13.4.1 : প্রিসিশন-রিকল গ্রাফ 


একইভাবে, দি আমরা চাই ফলস পজিটিভ কমাতে, আমাদের তখন চে করতে হবে রিশা 
মান 100%-এর যত কাছাকাছি নিযে যাওয়া যায়। এখন ফলস পজিটিভ কমানোর জা কর 
কী করব? আমাদের মোট ক্যানসার রোগী হিসেবে চিত রোগীর সংখ্যা কমানোর ক্যানসার 
যাতে আসল ক্যানসার রোগী বাদে অন্য কেউ না থাকে, তাই না? কিন্তু অনেক সম: 


১৭০ 


অধ্যায় ১৩ : পারফরম্যান্স 0১61101772110) 
রোগী হিসেবে চিহ্নিত রোগীর সংখ্যা কমাতে গিয়ে আমরা আসল ক্যানসার রোগীকেও বাদ দিয়ে 
দিতে পারি, যেটি কিনা ফলস নেগেটিভ বাড়িয়ে দেবে। তাই, প্রিসিশন বাড়ানোর সঙ্গে সঙ্গে এটিও 
নিশ্চিত করতে হবে, যাতে রিকল খুব বেশি কমে না যায়। গ্রাফ 13.4.1-এ ব্যাপারটি আরেকটু 
সহজ করে বোঝানোর চেষ্টা করা হলো : 


গ্রাফ 13.4.1 থেকে ভালোমতো লক্ষ করলে দেখবেন, রিকলের মান যখন খুবই কম, প্রিসিশনের 
মান তখন অনেক বেশি। আস্তে আস্তে রিকলের মান বাড়ানোর সঙ্গে সঙ্গে আমাদের প্রিসিশনের 
মান কমেছে। এটিকে বলে প্রিসিশন-রিকল ট্রেডঅফ (276015107-1২601] শ78090)। তাই, 
আমাদের সিস্টেমের চাহিদা অনুসারে আমাদের ঠিক করে নিতে হবে যে আমরা প্রিসিশনকে 
ম্যাক্সিমাইজ করব নাকি রিকলকে। 


এই ছিল প্রিসিশন এবং রিকলসংক্রান্ত আলোচনা। 


পরিচ্ছেদ ১৩.৫ : এফ-ওয়ান মেজার (1 11995019) 


আমরা এতক্ষণ দেখলাম, কী করে প্রিসিশন এবং রিকল নির্ণয় করতে হয় এবং কখন কোনটি 
কীভাবে বাড়াতে কিংবা কমাতে হয়। কথা হচ্ছে, প্রিসিশন ও রিকল দুটি সম্পূর্ণ ভিন্ন ভিন্ন 
পারফরম্যান্স মেদ্টরক। এখন একটি আযালগরিদমকে যাচাই করার জন্য যদি এই দুটি ভিন্ন ভিন্ন 
মানের পরিবর্তে দুটি মিলিয়ে একটি মান ব্যবহার করা যায়, সেটি আরো ভালো হয় না? 


ঠিক এই ধারণার থেকেই এফ-ওয়ান মেজার (31 7464581)-এর জন্ম। এফ-ওয়ান মেজারকে 
সহজ করে বলা যায় যে, এটি হচ্ছে প্রিসিশন ও রিকল এর মানের 'এক বিশেষ ধরনের' গড়। এখন 
কথা হচ্ছে, বিশেষ ধরনের গড় আবার কী? গড় তো গড়ই। দুটি মান যোগ করব, দুই দিয়ে ভাগ 
করব, এই তো হলো গড়! এর বাইরেও আবার কিছু আছে নাকি? 


তার উত্তর দেওয়ার আগে চলুন একটু দেখে নিই প্রিসিশন ও রিকলের সাধারণ গড় মান নিলে 
কোন পরিস্থিতির উদ্রেক হয়। 


আমরা যদি সাধারণ গাণিতিক গড় নিই, তবে _ 


1875015807+79০211 
৮ 


এটি কিছু কিছু ক্ষেত্রে ভালো কাজ করলেও কিছু কিছু ক্ষেত্রে খুবই ক্রটিপ্রবণ ফলাফল দেবে। 
যেমন, ধরা যাক, আমাদের 100 জন রোগীর মধ্যে 3 জনের ক্যানসার আছে, বাকি 97 জনের 
নেই। আরো ধরা যাক, আমাদের মডেল এতই অকার্যকর যে সে 100 জনের সবাইকে ক্যানসার 
রোগী হিসেবে প্রেডিক্ট করেছে। তাহলে _ 


17114162576 হ 


১৭১ 


মেশিন লার্নিং আলগরিদম 
40009] 1055 


(0910001) (30 0910091) 
1279010090. 
[090 (0০917091) 3 
(০ 091)001) | 0 9 ] 


টেবিল 13.5.1 


এখন, তাহলে এই টেবিল থেকে আমরা যদি প্রিসিশন ও রিকল বের করে ফেলি তাহলে দাঁড়ায় 
এরকম _ 


রি 77716 10510/6 
1278015£01% ₹ 7742-2917৮2 ২৯3 -3% 
7772 120518৮6 + 1015610516৮ 1009 
77749 2051056 ও 
13506.11 _ 77 _ লহ 0 
17782 2০518৮৪ +170156 120 001৮2 : 100% 


সুতরাং এখান থেকে আমাদের এফ-ওয়ান মেজার হয়, 


11 17452.575 


3722» 51.5% 


এখন দেখুন, আমাদের মডেলটি কিন্তু খুবই অকার্যকর ছিল, সেসব রোগীকেই ক্যানসার রোগী 
হিসেবে প্রেডিক্ট করেছে। কিন্তু তা সত্বেও আমাদের এফ-ওয়ান মেজার আসছে 51.5% যেটি কিনা 
বেশ মাঝামাঝি পর্যায়ের একটি মান, তাই না? অথচ এত বাজে মডেলের স্কোর অনেক কম থাকার 
কথা । আর তাই, আমরা শুধু গাণিতিক গড় ব্যবহার করে এফ-ওয়ান মেজারের মান হিসাব করলে 
সব সময় সঠিক তথ্য পাব না। সুতরাং, আমাদের সেই 'বিশেষ গড়'-এ ফিরে যেতে হবে। 


আমাদের বিশেষ এই গড়মানটির একটি গালভরা নাম আছে। একে বলা হয় হারমনিক গড় বা 
হারমনিক মিন (7217770101011891)। 


হারমনিক গড়ের বৈশিষ্ট্য হলো যদি, আমরা যদি % ও % সাধারণ গড় ঝ1101010017621) হিসাব 
করি, তাহলে দেখুন এটি % ও %-এর ঠিক মাঝ বরাবর থাকবে। কিন্তু, হারমনিক গড়ের ক্ষেত্র 
সেটি একটু আলাদা হবে। যদি % ও %-এর মান মোটামুটি সমান হয়, তবে সে ক্ষেত্রে হারমনিক 
গড়ের মান দুজনের সাধারণ গড়, অর্থাৎ মাঝ বরাবর থাকবে। কিন্তু যদি, এমন হয় যে ও -এর 
মধ্যে যেকোনো একটি বড়ো এবং অপরটি ছোটো, তখন হারমনিক গড়ের মান ও %-এর মধ্য 
যেটি ছোটো সেটির কাছাকাছি থাকবে। অর্থাৎ, যদি / ছোটো হয়, তাহলে %-এর কাছাকাছি থাকবে 
কিংবা % ছোটো হলে %-এর কাছাকাছি থাকবে। 


এই হারমনিক গড়ের সূত্র হচ্ছে, 


১৭২ 


অধ্যায় ১৩: পারফরম্যান্স (0116017731106) 


2৮ 
7107110 14667 ₹ -- 
1107 %+৮ 


অর্থাৎ যদি আমরা প্রিসিশন ও রিকল-এর হারমনিক গড় নিই তাহলে _ 


2৮275085078» 86০11 
পে ০০০৯৭ 
৮720151077৯ 76011 


আমরা এখন, আমাদের সেই ক্যানসারের উদাহরণে প্রিসিশন ও রিকল-এর হারমনিক গড় নিলে 
পাই- 


110771101710 12017 


+7-7719% _ 9০ _:5.825% 


3+ 100 103 

এখন কি মনে হচ্ছে না, যে এই স্কোরটি আমাদের ওই মডেলের জন্য উপযুক্ত হয়েছে? ঠিক তাই। 
যেসব মডেলের পারফরম্যান্স খারাপ, প্রতিটি মডেলকে এভাবে স্কোর কমিয়ে দিয়ে উপযুক্ত শাস্তি 
দেয় এই হারমনিক গড়। 


তাই, এফ-ওয়ান মেজারের সময় আমরা অবশ্যই সাধারণ গড়ের পরিবর্তে হারমনিক গড় ব্যবহার 
করব। 


110777101710 115071 


পরিচ্ছেদ ১৩.৬: স্পেসিফিসিটি 906019010) 


আবারও, আমাদের পূর্বে ব্যবহৃত টেবিল থেকে - 


80021 0908 
7৮০ 15-7 
টা 


টেবিল 13.6.1 


স্পেসিফিসিটি (90100) হচ্ছে যতজনের ক্যানসার ছিল না বলে মেশিন প্রেডিক্ট করেছে এবং 
তাদের মধ্যে আসলেই যারা ক্যানসার রোগী নয়, তাদের একটি অনুপাত। এটি দেখা যাচ্ছে 
রিকলের ঠিক বিপরীত। 


অর্থাৎ, 


ও না 77006 715000৮9 
6০0510 61159০6৮৮64 22159 129516052 . 


১৭৩ 


মেশিন লার্নিং আআলগরিদম 
এখানে ফলস পজিটিভও যোগ করার কারণ হচ্ছে, যারা ফলস পজিটিভ তাদের কিন্তু আসলে 
ক্যানসার নেই, কিন্তু ভুল ডায়াগনোসিস করে মেশিন বলেছে তাদের ক্যানসার আছে। 
ধরা যাক, আগের মতোই, 100 জনের ভেতরে 5 জনের ক্যানসার আছে, বাকি 95 জনের নেই। 
এখন মেশিন বলল ওই 5 জনসহ মোট 10 জনের ক্যানসার আছে, অর্থাৎ 90 জনের ক্যানসার 
নেই। অতএব, 


1116 1160066৮6 _ 5; [8159 12951016 ল 5 
তাহলে, 
51780111010) _ ন্ ল 50% 
এই হচ্ছে স্পেসিফিসিটি। আমাদের লক্ষ্য থাকবে স্পেসিফিসিটির মান যতদূর সম্ভব বাড়ানো। 


পরিচ্ছেদ ১৩.৭ : আরওসি কার্ভ ২0০ ০00৮৪) 


এতক্ষণ আমরা যা যা পড়েছি, মোটামুটি সবকিছুর জ্ঞান আমাদের প্রয়োজন হবে আরওসি কার্ 
0২00 07৮০) বোঝার জন্য। আরওসি কার্ভের পুরো নাম _ রিসিভার অপারেটিং 
ক্যারেকটারিস্টিক কার্ভ 0২০০০1৬01- 06720018 01181800571500 0079)। নাম দেখে হয়তো 
মনে হতে পারে যে বেশ জবরজং একটি পারফরম্যান্স মেট্রিক এটি এবং আসলেই তা-ই। 


আরওসি কার্ভ দিয়ে আমরা মূলত যেটি বুঝি, সেটি হচ্ছে একটি মডেল কত ভালোভাবে দুটি ভিন্ন 
ভিন্ন ক্লাসের মধ্যে পার্থক্য করতে পারে। একটি খুব ভালো মডেল খুব ভালোভাবে দুটি ক্লাসের 
মধ্যে পার্থক্য করতে পারবে, কিন্তু একটি খারাপ মডেল কখনোই তা পারবে না। 


আরওসি কার্ভের ধারণায় যাওয়ার আগে, আমরা আমাদের "৮ শখ, মা ও চাখ-এর ধারণাটি একটু 
ভিন্নভাবে দেখি এবার। 


ধরা যাক, মেশিন আবারও আগের মতোই ক্যানসারের রোগী প্রেডিক্ট করছে। এবার আমরা তার 
অনুমানকে একটি সন্তাব্যতার মান দিয়ে চিহিত করব। গ্রাফ 13..1 দেখি । এখানে, লাল রঙের 
কার্ভ থেকে দেখতে পাচ্ছি, যাদের সন্ভাব্যতার মান 0 থেকে 0.6-এর মধ্যে আছে তাদের সত্যি 
সত্যিই ক্যানসার নেই। আর সবুজ রঙের কার্ভ থেকে দেখতে পাচ্ছি, যাদের সন্তাব্যতার মান 0.4 
থেকে 1-এর মধ্যে আছে তাদের সত্যিই সত্যিই ক্যানসার আছে। সন্তাব্যতার মানটি কোনোভাবে 
হিসাবনিকাশ করে বের করা হয়েছে বলে ধরে নেওয়া যাক। 


১৭৪ 


অধ্যায় ১৩: পারফরম্যান্স 0১700772706) 
এখন কথা হচ্ছে, ভালো করে লক্ষ করবেন, এখানে কার্ড দুটির কিছু অংশ ওভারল্যাপ (0৬০7৭12) 
করেছে। সন্তাব্যতা যদি 0. থেকে 0.6-এর মধ্যে কোনো মান হয়, তখন কিন্তু পজিটিভ কিং; 
নেগেটিভ দুটির যে-কোনোটিই আউটপুট হতে পারে। কিন্তু, তা তো হতে দেওয়া যায় না! কেউ 
তো একই সঙ্গে পজিটিভ ও নেগেটিভ দুটিই হতে পারে না। 


0.10.2 0.3 0.4 0.5 0.6 0.7 0.৪ 0:9 


গ্রাফ 13.7.1 


তাই, আমরা এখন যেটি করব, সেটি হচ্ছে একটি থ্রেসহোন্ড মান ঠিক করব এবং এটি মেশিনকে 
শিখিয়ে দেব। থ্রেসহোন্ড মানের নিচের সব সন্তাব্যতার জন্য মেশিন বলবে ক্যানসার নেই; আর 
থেসহোল্ড মানের ওপরের সব মানের জন্য মেশিন বলবে ক্যানসার আছে। 


এখন, আমরা যদি থেসহোল্ড মান ধরি 0.5, তাহলে _ 


& 
/948৯১ সই 


০-6552-0 
411 19290%০ €-17-----৯ 401 705109 ? 


গ্রাফ 13.7.2 


১৭৫ 


মেশিন লার্নিং আ্যালগরিদম 
এখন ভালোমতো লক্ষ করুন, 0.5-এর দুই পাশেই এমন কিছু মান আছে 
থাকার কথা নয়। 0.5-এর ডান পাশে শুধুই সবুজ গ্রাফ থাকার কথা, লাল এ সেুলোর 
থাকার কথা নয়। একইভাবে, 0.5-এর বাঁ পাশে শুধুই লাল গ্রাফ থাকার কথা ৪ দো অল 
অংশ থাকার কথা নয়। জের কোনে 


এখন তাহলে বুঝতেই পারছেন, 


*  0.5-এর ডান পাশের সব সবুজ গ্রাফের মান _ গণ 170510/6 

*. 0-5-এর ডান পাশের লাল গ্রাফের অংশবিশেষ 5 [78156 720310%9 
* 0.5-এর বাঁ পাশের সব লাল গ্রাফের মান ₹ গৃ-6 162905 

*  0.5-এর বাঁ পাশের সবুজ গ্রাফের অংশবিশেষ 5 7156 136690% 


নিচের গ্রাফ গ্রোফ 13.7.3) থেকে ধারণাটি আরো পরিষ্কার হবে বোধকরি : 


0.0. 0.2 0-3 0.4 0.5 0.6 0.7 0.৪ 0.9 


গ্রাফ 13.7.3 


এখন আমরা ইতিমধ্যেই স্পেসিফিসিটি ও সেনসিটিভিটি (597510%0) বা রিকল বিষয় দুটি 
জানি। 


আপনাদের সুবিধার জন্য আবারও এখানে দিচ্ছি _ 


7709 1162070002 
776149001৮6 1 170156 1১051016 


570801/010/ ল 


77716 705101/6 
77481051016 + 70156 1/60011৮6 


এখন স্পেসিফিসিটি ও সেনসিটিভিটির মধ্যেকার সম্পর্ক বিপরীতমুখী। সেনসিটিভিটি বাণ 
স্পেসিফিসিটি কমে, আবার সেনসিটিভিটি কমলে স্পেসিফিসিটি বাড়ে। 


১৭৬ 


5877510110)/ (0120211) 


অধ্যায় ১৩: পারফরম্যান্স (70না)0106) 


নি গ্রাফ (গ্রাফ 13:74) থেকে হয়তো বিষয়টি আরেকটু পরিক্ষার হবে : 


91০010010 


গ্রাফ 13.7.4 


এখন, 1300 09//০-এর জন্য আমরা শুধু 51৫0/0/-এর মানের বদলে (1- 
5794/14)-এর মান $75101/1/-এর বিপরীতে প্লট করব। 


তখন গ্রাফটি দাঁড়াবে এরকম (গ্রাফ 13.7.5) : 


১৭৭ 


মেশিন লার্নিং আ্যালগরিদম 

গ্রাফে তাহলে দেখা যাচ্ছে সেনসিটিভিটি যত বাড়বে, 0 _ 92070 

এর মানও তত বাড়বে। আরেকটি টার্ম আমি এখানে ব্যবহার করেছি, দেখবেন টার্ম হচ্ছে 10. 
এখানে, /1)0 হচ্ছে এরিয়া আন্ডার দ্য আরওসি কার্ভ ৫768 10701 079 300 ৮০ 
সংক্ষেপে এরিয়া আন্ডার কার্ভ (75৪ 07৫57 07৮৩ -800)। )বা 
গ্রাফে 0০ অর্থাৎ কার্ভের নিচের ক্ষেত্র যত বড়ো হবে, আমাদের 
বলে ধরা হবে। আর ক্ষেত্র যদি কম হয়, তাহলে ধরে নিতে হবে দে 
পার্থক্য করার ক্ষেত্রে খুব একটা ভালো পারফরম করছেনা। 


এই আরওসি কার্ভ 


আমাদের, এই আরওসি কার্ভ 
মডেল তত ভালো কাজ করছে 
আমাদের মডেল দুটি ক্লাসের মধ্যে 


400 নল 0.9 


/১00 _ 0.৪ 


1800 5 0.7 


গ্রাফ 13.7.6 


ওপরের গ্রাফ গ্রাফ 13.7.6) থেকে দেখুন, আমাদের মডেল যত খারাপ পারফরম করছে অধ 
ওভারল্যাপ যত বাড়ছে, আমাদের আরওসি কার্ভের 470 ততই কমছে। 


অধ্যায় ১৩ : পারফরম্যান্স (১010077191106) 
রো দেখুন, মডেল যদি প্রায় পুরোপুরিই খারাপ পারফরম করে, অর্থাৎ প্রায় পুরোপুরিই 
এভারল্যাপ করে, যদি দুটি ক্লাসের ভেতরে র একেবারেই আলাদা না করতে পারে, তখন গ্রাফ হয় 
এরকম (গ্রাফ 13.7.7) : 


গ্রাফ 13.7.7 
এখন সবশেষে আসি, কেন আমরা ৫ _ 590/121) ব্যবহার করছি, তার ব্যাখ্যায়। 
আমরা জানি, 


510201/1016)/ 


18 
গা ৭৮৮ 


পা _7া9+৮৮- _ ৮৮ 
গার + 7৮ গাও ৮৮ গাও + ৮৮ 


এখান থেকে বোঝা যাচ্ছে, স্পেসিফিটি আমাদের দিত ট্রু নেগেটিভের হার, কিন্তু 0. 
579০/1%)) আমাদের দেবে ফলস পজিটিভের হার। সুতরাং, সেনসিটিভিটিকে উন পজিটিভের 
হার এবং ৫. _ 59০/০))-কে ফলস পজিটিভের হার বলা চলে। 


এখন তাহলে, আমরা শুধু পজিটিভ নিয়ে কাজ করছি, কোনো ধরনের নেগেটিভ নিয়ে কাজ করছি 
না। গ্রাফ 13.7.3 থেকে, আমরা যদি আমাদের থেসহোল্ডের মান বাড়াই, আমরা তাহলে টু 
পজিটিভ ও ফলস পজিটিভ দুটিই কমিয়ে নিয়ে আসব। আবার যদি গ্রেসহোন্ডের মান কমাই, 
তাহলে আমরা ট্রু পজিটিভ ও ফলস পজিটিভ দুটিই বাড়িয়ে ফেলব। অর্থাৎ, আমরা বলতে পারি 
যে,আমরা এখন শুধু থ্বেসহোন্ডের ডান পাশের দুটি মান ট্রে পজিটিভ ও ফলস পজিটিভ) নিয়েই 
কাজ করছি, থেসহোন্ডের উভয় পাশের মান নিয়ে নয়। এতে আমাদের হিসাবের বেশ ভালো 
রকমের সুবিধা হয় দেখেই ৫. _ $90//20)) ব্যবহার করা হয়ে থাকে। 


1 51080111016 7 1 


পরিচ্ছেদ ১৩.৮: এলবো মেথড (/১০৬/1150700) 


এলবো মেথড (819০ 11900) ব্যবহার করা হয় কে-মিনস কলাস্টারিংয়ের ক্ষেত্রে 
১৭৯ 


মেশিন লার্নিং আলগরিদম 


আগেই বলা হয়েছে, এটি আসলে ঠিক কোনো পারফরম্যান্স মেট্রিক নয়। এটি হলো মূলত 
মিনস ক্লাস্টারিংয়ের ক্ষেত্রে 1-এর অপটিমাল মান বের করার একটি পদ্ধাতি মাত্র। রী 


শাল 7 


19]1)0৬/ 19011701054 7 


1[015051706 60 0570010 


£561856 /10717-0195657 


[30170190101 01050215,]€ 


গ্রাফ 13.8.1. 


ওপরের গ্রাফটি (গ্রাফ 13.8.1) হচ্ছে এলবো মেথডের গ্রাফ। এটি যেভাবে তৈরি করা হয়েছে তা 


হলো, প্রথমে 7-এর বিভিন্ন মান নেওয়া হয়েছে। ধরি, যদি 75 3 হয়, তবে গোটা ডেটাসেট 
তিনটি ক্লাস্টারে ভাগ হয়ে যাবে, তাই না? এর পরে, আমাদের ডেটাসেটের প্রাতিটি পয়েন্টকে এই 


তিনটি ক্রাস্টারের কোনো একটিতে আ্যাসাইন করা হয়েছে এবং প্রতিবার একটি করে ডেটা 
পয়েন্টকে কোনো ক্লাস্টারে আ্যাসাইন করার পরে সেই ক্লাস্টারের সেন্ট্রয়েড আপডেট করা হয়েছে 
(বিস্তারিত অধ্যায় ৭-এ রয়েছে)। 

এরপরে, প্রতিটি ডেটাপয়েন্ট 7 যে র্লাস্টারে ত্যাসাইন করা হয়েছে, সেই ক্লাম্টারের 
সঙ্গে ওই ডেটা পয়েন্টের দূরত্ব নির্ণয় করা হয়েছে। অর্থাৎ, সহজ কথায় কোনো % 
ক্লাস্টার 1-এ থাকে, তাহলে ক্লাস্টার 1-এর সেন্ট্রয়েড ০1-এর সঙ্গে ?-এর দূরত্ব বের করা হয়েছে 
আবার, যদি অন্য একটি ডেটা পয়েন্ট ,)) ক্লাস্টার 2-তে থাকে, তাহলে গ-এর সঙ্গ রলা্টার 
2-এর সেন্ট্রয়েড ৫2-এর দূরতৃ বের করা হয়েছে। পরবর্তী সময়ে প্রতিটি ডেটা পয়েন্টের জন্য 


পাওয়া দূরত্বের মানকে বর্ণ করে, বরগগুলো যোগ করে আমরা যে মান পাই সেটি হচ্ছে -১. 
এর জন্য সাম অব স্কয়ারড এরর (9010 019001010013101) বা এসএসই (558) মান। 
একইভাবে আমরা, 1-এর বাকি সব মানের জন্য 39 মান বের করব। আমরা 1(-এর মগ ! থেকে 
10 পর্যন্ত নিতে পারি। গ্রাফ 13.8.1-এ1৫ _ 1 থেকে? পর্যন্ত দেখানো হয়েছে। ৯8 
দেখব, গ্রাফটি দেখতে অনেকটা মানুষের হাতের কনুই বা এলবো (81/০)-এর মতো 


(১) যাঁদ 
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অধ্যায় ১৩ : পারকরম্যান্দ (৮6707121706) 
এলবো পয়েন্ট (1১০৬ 7১০170 হিসেবে যেটিকে চিহ্নিত করা আছে, সেই পয়েন্টটিই হচ্ছে 
গরামাদের হাতের কনুইয়ের ভাঁজ। 
এই এলবো পয়েন্টটি বের করতে পারলেই আমাদের কাজ শেষ। £-এর যে মানের জন্য আমরা 
এই এলবো পয়েন্টটি পাচ্ছি, সেটি-ই হবে আমাদের /-এর অপটিমাল মান। 
এখন, এই এলবো পয়েন্টের মান বের করার জন্য কিন্তু কোনো গাণিতিক সূত্র নেই। এটি চোখে 
দেখে অনেকটা আন্দাজ করে বের করতে হয়। লক্ষ করলে দেখবেন, গ্াফটি !€ সু 1 থেকে যখন 
শুরু হয় তখন 558 অনেক বেশি ছিল। [-এর মান বাড়ার সঙ্গে সঙ্গে হঠাৎ করে 558-এর মান 
অনেকখানি নেমে আসে, একটি নির্দিষ্ট বিন্দু বা পয়েন্টের পরে এই পরিবর্তনের হার অনেকখানি 
কমে আসে। এই পয়েন্টটিকেই আমরা এলবো পয়েন্ট বলি। 


| অধ্যার ১৪: পরবর্তী সময়ে কী থাকছে _] 


এই বহটিতে মূলত একেবারে হাতে-কলমে উদাহরণ দিয়ে বোঝানোর চেষ্টা করা হলো কীভাবে 
একটি মেশিন লার্নিং আযালগরিদম প্রয়োগ করতে হয়। কেউ যদি এখন একটু কষ্ট করে হলেও 
নিজের হাতে এই আ্যালগরিদমণ্ডলোর কোড করে ফেলেন পোইথনে হলে সুবিধা বেশি) তাহলে 
পুরো ব্যাপারটি একদম পানির মতো পরিফার হয়ে যাবে। আমি এই বইতে কোনো কোড যুক্ত 
করিনি, কোডিংয়ের স্বাধীনতা পাঠকদের কাছেই রেখে দিলাম। এর কারণ হচ্ছে, আমার বইতে 
লিখে দেওয়া কোড দেখে দেখে টাইপ করে আসলে খুব বেশি কিছু বোঝা যাবে না। তার চেয়ে 
ভালো হয় যদি নিজে নিজে চিন্তা করে ধাপে ধাপে এই আ্যালগরিদমগ্ডলো কোড করা যায়। কীভাবে 
কী করতে হবে সব তো দিয়েই দিয়েছি। 

মেশিন লার্নিংয়ের এই আযালগরিদমণ্ডলো আমি যেভাবে বইতে দেখিয়েছি, এইভাবে ম্যানুয়ালি না 
করে সরাসরি লাইব্রেরি ফাংশন ব্যবহার করেও করা যায় দু-তিন লাইনে। কিন্তু তাতে আসলে 
লাভের লাভ কিছু হবে না, ক্ষতিই হবে। আমরা যখন কোনো কিছু শিখি, তখন একেবারে গোড়া 
থেকে হাতে-কলমে শেখাই ভালো। এরপর একবার হাত পাকা হয়ে গেলে তখন আর লাইব্রেরি 
ফাংশন ব্যবহার করতে কোনো সমস্যা নেই, ওগুলো তো তৈরি করা হয়েছে ব্যবহার করার জন্যই। 
অনেকেই বলবেন যে চাকা বারবার আবিষ্কার করার কী দরকার? লাইব্রেরিতে তো কোড করাই 
আছে, সেটি ব্যবহার করলেই হয়! আবার কেন নিজে করব? এর উত্তর হচ্ছে, ওই যে বললাম, 
নিজের শেখার ভিত্তি পাকাপোক্ত করার জন্য। মেশিন লার্নিং শেখার জন্য হাতে-কলমে নিজে কোড 
করে করে বোঝার কোনো বিকল্প নেই। 


আমি এখানে মেশিন লার্নিং আযালগরিদমগ্ডলো কীভাবে পাইথনের 90111:59 লাইব্রেরি 
ব্যবহার করে কোড করতে হয় সেই কোডগুলোর ডকুমেন্টেশনের লিংক দিয়ে দিচ্ছি: 


17000://501100 
169177.075/509016/20100-6%51 


-  লজিস্টিক রিগ্রেশন 


1000://5011- ৃ ] 
169177.015/9569019/9000-698100163/ 11768110061 01077510850001 


- সাপোর্ট ভেক্টর মেশিন 


[10155/1171691-70051/0105-01511011 
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অধ্যায় ১৪ : পরবর্তী সময়ে কী থাকছে 
1000:/ /5০1100-198170-075/56916/77000165/50171 01] 


_ কে-নিয়ারেস্ট নেইবর 


11079://501001817-078/500016/70000165/7018)090175-11071 


_ কে-মিনস ক্লাস্টারিং 
01000://50110৮ 
[62177.075/57016/17010155/8775150/5115217.01506710460175-101 
- ডিসিশন ট্রি 


]700):/ /5০10৮1621.078/504016/7700165/0961/001 


- প্রিন্সিপাল কম্পোনেন্ট আ্যানালাইসিস 
1700://5010৮ 
162170.0175/50916/70001195/ 690619650/ 31199177.090010190510107-04.1)0 


ঠা] 
- পারসেপব্রন 


0000://50110 
16910.075/509018/ 
[100] 


- নিউরাল নেটওয়ার্ক 
1000://50110৮ 
192171.012/503018/,0004] 

এই কোডগুলো সব লাইব্রেরি ফাংশন ব্যবহার করে করা। আমার পরামর্শ থাকবে, আগে নিজের 
হাতে ম্যানুয়াল জ্যালগরিদমণ্ডলো কোড করে জিনিসগুলো বোঝা, আমি অনেক খুটিনাটি বিষয় 
হয়তো বইটি যতটা সম্ভব সহজ রাখার স্বার্থে এড়িয়ে গিয়েছি। যেগুলো একেবারে না হলেই নয় 
সেগুলো দেখিয়েছি। তাই কোড করার সময় ইন্টারনেট থেকে আরো খুঁটিনাটি বিষয়গুলো দেখে 
নিতে হবে। নিজে নিজে পড়ার কোনো বিকল্প নেই। 

এ বইটি শেষ করার পরে আমার পরামর্শ থাকবে পাইথন দিয়ে এই আযালগরিদমগ্ুলোর কোড খুব 
ভালোমতো মকশো করে ফেলা। ম্যানুয়ালি ও লাইব্রেরি ফাংশন ব্যবহার করে, দুটিতেই যেন হাত 


100000165/591178190/ 51098177.0107921-170091.0707070 


95/ 116011:2110665/0105-501099751560.]) ঢা] 
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মেশিন লার্নিং আযালগরিদম 
চালু থাকে। সেই সঙ্গে পাইথন ব্যবহার করে ডেটা ম্যানিপুলেশন, ডেটা রিপ্রেজেন্টেশন 0 
187445, 1490210019 মডিউল তিনটি খুব ভালোভাবে শিখতে হবে) শিখে নিতে হবে। ৮, 
এগুলো খুব ভালোভাবে শেষ করতে পারলে, এরপর হাত পাকাতে হবে নিউরাল নেটওয়ার্ক ও 
ডিপ লার্নিংয়ে। আমার পরবর্তী বইটি হবে নিউরাল নেটওয়ার্ক ও ডিপ লার্নিংয়ের নানান বিষয় 
নিয়ে। সেটিও যখন আমরা মোটামুটি ভালোভাবে শেষ করতে পারব, তারপরে আসবে সবশেষের 
অংশ-_ হাতে-কলমে প্রোজেক্ট করা । আমি শুরুতেই হাতে-কলমে প্রোজেক্ট দিয়ে বোঝাতে পারতাম, 
কিন্তু তাতে বেসিকের অনেক ঘাটতি থেকে যেত। 
আমি মনে করি, একটি সমস্যা সমাধানের ক্ষেত্রে কী হচ্ছে, কীভাবে হচ্ছে, কেন হচ্ছে সেটি কিছুটা 
অন্তত না বুঝে আসলে অন্ধের মতো প্রোজেক্টে ঝাঁপিয়ে পড়াটা মোটেও কোনো কাজের কাজ নয়। 
প্রোজেট্ট করার আগে কিছু বেসিক বিষয় অবশ্যই জানা থাকতে হবে, তাহলেই কেবল প্রোজেক্টে 
কোনটি ব্যবহার করব এবং কেন করব, সেগুলো ভালোমতো বোঝা যাবে। আর তাই, আমার এই 
সিরিজের শেষ বইটি হবে মেশিন লার্িংয়ের 5টি প্রোজেক্ট নিয়ে। বইটি হবে পাইথনে, হাতে-কলমে 
একেবারে গোড়া থেকে কীভাবে একটি প্রোজেক্ট করতে হয় সেটি ওই বইয়ে শেখানো হবে। 


আমাদের মেশিন লার্নিংয়ের আলগরিদমগ্ডলোতে হাতেখড়ির এইখানেই সমাপ্তি টানছি। 
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